본문으로 바로가기
336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.

 

 

 

 

 

Scaling and Benchmarking Self-Supervised Visual Representation Learning

 

Priya Goyal, Dhruv Mahajan, Abhinav Gupta, Ishan Misra

(Submitted on 3 May 2019 (v1), last revised 6 Jun 2019 (this version, v2))

arXiv:1905.01235

 

 

이전의 구글팀이 architecture에 관심을 가졌다면 페이스북 팀은 self-supervised를 scailng 하고 또한 적절한 평가를 하기위한 benchmark suite를 제시하는 논문이다.

 


 

 

SSL(self-supervised learning)은 수동으로 달 label이 필요가 없으므로 scalability를 가진다.

이 논문에서는 3가지 축으로의 scale을 진행한다.

1. pre-training data 의 크기를 scale

2. model capacity를 scale

3. 문제의 복잡도를 scale.

 

 


 

 

비교를 하기 위해서 2가지의 SSL pretext task를 이용하는데

직소퍼즐 문제와 colorization 문제를 사용했다.

2019/11/06 - [AI/논문정리] - Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

 

Colorization은 R. Zhang, P. Isola, and A. A. Efros. Colorful image colorization. In ECCV, 2016. 논문에 소개된 방식이다.

회색 인풋이미지의 lightness를 보고 알맞은 색을 예상하는 문제이다.

위의 캡처화면에 적혀있고 더 자세한 사항을 원한다면 논문을 읽어보자.

 


 

 

처음으로 pre-training data 의 크기를 scale 한다.

pre-training 데이터셋은 YFCC를 이용하며 랜덤으로 1M, 10M, 50M, 100M 개의 이미지를 뽑아 사용한다.

YFCC에 훈련시킨 모델의 feature들을 linear SVM이 transfer하고 VOC07에 대해서 시도하면 그래프 결과가 나온다.

 

그래프에서 볼 수 있듯이 데이터의 사이즈가 커지면 transfer learning의 성능도 조금씩 좋아진다.

또한 Jigsaw가 Colorization보다 조금 더 좋은 성능을 보였다.

 


 

 

두번째로는 model capacity를 scale한다.

이를 위해 AlexNet과 ResNet-50을 비교 사용한다.

아까의 그래프와 동일한 그래프이며 그래프를 통해 ResNet이 성능이 더 좋은것을 알 수 있다.

 

이는 더 큰 pre-training datasets을 완전히 이용하기 위해서는 더 큰 capacity model을 사용해야 한다는 뜻이다.

 


 

 

세번째로는 문제의 복잡도(난이도)를 증가시켰을 때 이다.

Jigsaw의 난이도는 permutation의 개수로 조절했고

Colorization의 경우는 soft-encoding 할 때 nearest neighbors의 개수인 K로 조절을 했다.

 

결과적으로 Jigsaw에서는 문제가 어려워질수록 transfer learning에서의 성능이 어느정도 향상했지만

Colorization은 그렇지 않았다. (성능향상 X)

 


 

 

Jigsaw 와 Colorization의 문제복잡도에 있어서의 차이발생을 저자들이 다음과 같이 정의했다.

pretext task에 의해서 representation안에 encode된 구조의 차이 때문이라고..

colorization은 의미있는 카테고리와 그들의 색 간의 관계가 중요하지 미세하게 조정된 색의 구분은 중요하지 않다.

그러나 jigsaw는 문제가 복잡해질 수록 더 많은 spatial structure을 encode할 수 있는 장점이 있었다.

 

세가지 축을 함께 놓고 봤을 때.... 이 때 직소만 비교한다. Colorization은 성능이 뛰어나지 않았기 때문에...

그래프를 참고하면 세가지 축이 모두 상호보완적임을 알 수 있다.

 


 

 

pre-training과 transfer domain간의 관계도 살펴봤다.

jigsaw의 경우....

VOC07에 검증을 할 때 YFCC보다 ImageNet을 이용하는 것이 더 효율적이었고

Places205에대서는 반대의 결과를 보였다.

 

이는 ImageNet의 도메인이 VOC07에 가깝기 때문이고(object-centric), 

반면 YFCC는 Places205에 가깝다.(scene-centric)

 

 


 

 

PPT가 길어져서 이어지는 글로 쓴다. :)

이어지는 내용은 평가를 위한 benchmark suite이다.

2019/12/01 - [AI/논문정리] - Scaling and Benchmarking Self-Supervised Visual Representation Learning (2)