본문으로 바로가기
336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.

 

 

 

 

 

2019/12/11 - [AI/논문정리] - Self-supervised Domain Adaptation for Computer Vision Tasks (1) 의 이어지는 글이다.

 

앞에서 개요를 봤다면 이제는 실험부분을 설명하겠다.

 

 

실험은 위의 환경에서 실행되었다.

 

 


 

처음으로 테스트해볼 target task는 object recognition이다.

이를 위해서 office dataset을 사용하는데 이 데이터는 3가지의 도메인을 가진다.

 

아래에 표 부분은 다음에 나올 method들인데 읽어두는게 좋다.

 

 


 

모든 경우의  수를 다 테스트했을 때 Rot 방식이 가장 정확도가 좋았다.

 

 


 

domain adaptation 성능을 분석하기 위해서 t-SNE를 사용하여 visualize했다.

카테고리 구분과 도메인 정렬에 있어서 Rot 방식이 잘 표현하는 것을 알 수 있다.

 

 


 

이번에는 semantic segmentation에 대한 실험이다.

가상합성 이미지 (src)는 SYNTHIA 와 GTA5를 이용했고 target 으로는 cityscapes dataset을 이용했다.

 

한가지 봐야할 점은 src domain image의 수가 target domain의 것 보다 많았다는 점이다.

 

 


 

표를 보면 여전히 Rot가 가장 좋은 결과를 보여준다.

 

src domain image를 target domain image와 함께 학습하는 MixRot의 경우는 Rot보다 성능이 떨어졌는데

이는 앞서 말한 이미지 데이터의 개수 차이로 인해 발생한 것으로 주장했다.

 

또한 더 복잡한 task인 SPRot도 Rot보다 좋지 않았는데 이는 더 어려운 pretext task가 domain adaptation 의 성능을 저하시키기 때문이라고 주장했다.

 


 

또한 Rotation 말고 Jigsaw puzzle 를 이용했을 때도 비교해보았다.

jigsaw puzzle은 아래에 정리되어 있다.

2019/11/06 - [AI/논문정리] - Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles

 

무튼 그래도 여전히 Rot가 성능이 좋았다.

 

 


 

혹시 input image 의 size도 성능에 영향을 줄까 싶어 테스트를 해봤는데...

가장 작은 사이즈인 128의 경우 가장 안좋은 성능을 보였다. 이는 너무 작아서 좋은 표현력을 학습하지 못하기 때문이다.

 

더 큰 사이즈인 400은 256보다 성능이 좋지 않았는데 이는 이미지가 너무 크면 pretext learning이 trivial solution에 빠져버린다는 것이다.

고로 적절한 cropping size가 pretext task의 학습의 난이도를 조절하는데 중요하다고 주장했다.

 

 


 

feature extraction의 layer가 반드시 last one이어야 성능이 좋은가를 실험했을 때

middle과 final 모두 그렇게 큰 차이는 없었다.

 

 


 

최고의 성능을 내는 Rot에 이것저것을 추가 실험을 해봤다.

Adv를 더했을 때 아주 약간의 성능향상이 있었고 BN을 더했을 때는 향상이 없었다.

그러나 Adv + BN 을 더했을 때 가장 성능이 좋았다.

 

 


 

BN이 왜 성능을 향상시키지 않는지를 알아내기 위해서 실험을 했다.

다른 네트워크에 BN만 이용하여 평가를 했을 때 아주 좋은 성능향상을 이뤄냈다.

 

그러나 Rot 와 Rot+Adv와 합쳐지면 1~2 퍼센트밖에 안오른다.

이는 Rot와 Rot+Adv가 이미 domain invariant representation을 배웠고 이것은 효과적으로 covariate shift를 줄이기 때문에 

더 이상 BN 이 좋은 영향을 미칠수가 없다는 것이다.

 

 


 

결과를 그림으로 보면 다음과 같았다.

점점 noisy segmentation이 줄어드는 것을 볼 수 있다.

 

 


 

이들의 SSL based domain adaptation 을 기존의 domain adaptation mechanism과 비교를 했을 때 이들의 방법은 견줄만한 정확도를 얻을 수 있었다.

하지만 Gain 을 보면 뒤쳐지는 것을 볼 수 있는데 이는 기존의 메커니즘이 SRC 도메인 이미지를 학습했을 때 매우 안좋은 정확도를 뽑아냈기 때문이다. 그냥 상대적인 차이 때문.

 

 

 


 

 

결론은 그냥 읽어보자 ~

 


 

 

교수님께서는 약간의 의구심이 드는 논문이라고 하셨다.

특히나 실험부분에 있어서 자세한 사항은 적어두지않아 이해가 안가는 부분이 있기는 했다.

예를 들면 feature extraction layer실험에서 middle layer에서 뽑은 feature들을 어떻게 사용했다는 것인지 말이다.