Tile2Vec: Unsupervised representation learning for spatially distributed data
Neal Jean, Sherrie Wang, Anshul Samar, George Azzari, David Lobell, Stefano Ermon
(Submitted on 8 May 2018 (v1), last revised 30 May 2018 (this version, v2))
인공위성으로부터 얻은 이미지를 학습하는 방법을 적어놓은 논문이다.
remote sesing images는 기본의 natural image보다 스펙트럼이 넓으며 버드아이 관점에서 찍혔다.
또한 자연어처리에서 시작된 distributional hypothesis를 여기서 적용하게 되는데 이 때 지리학적으로 가까운 거리는 비슷한 의미와 representation을 가지고 먼 거리는 다른 representation을 가지는 것으로 적용하였다.
자연어 처리인 NLP에서의 atomic unit은 각각의 단어이지만 여기서는 이미지패치를 멀티스펙트럼 데이터로 일반화시킨 remote sensing data를 선택하였다.
또한 context는 앞서 말한 거리에 따른 유사성을 선택하였다.
anchor&neighbor 간의 거리는 작아져야하고 anchor&distant 간의 거리는 커져야 한다.
이 때 distant타일이 너무 멀어지는 것을 방지하기 위해서 margin도 설정한다.
triplet loss는 아래에 더 자세하게 작성해두었다.
2019/11/16 - [AI/딥러닝 기초] - [개념정리] Ranking Loss Functions & Metric Learning
triplet sampling을 위해서는 2개의 hyperparameter를 사용했다.
tile size와 neighborhood radius 인데 이를 각각 100으로 설정해두었을 때 정확도가 가장 좋았다.
샘플링에 쓰이는 알고리즘은 왼쪽의 슈도코드를 참고하면 된다.
어느 타일이든 하나를 정하고 나머지 n-1개에서 다른 하나를 뽑았을 때 그 뽑은 타일이 정한 타일의 neighborhood일 가능성은 극히 희박했다.
이 아이디어를 통해서 그들은 (anchor, neighbor) 쌍에 대응하는 distant 타일이 총 3N개 정도였고 이를 활용하여 data augmentation 했다.
데이터셋은 다음 4가지로부터의 인공위성 이미지를 사용한다.
실험은 unsupervised와 supervised model들 각각에 대해서 진행했는데 모두 Tile2Vec이 아주 좋은 성능을 내었다고 말한다.
사실 해당 논문에 실험부분이 상세하게 적혀있지를 않아 논문을 읽는데 많은 의문이 생겼었다.
재미있는 논문이긴 했지만 또한 어리둥절한 부분이 많기 때문에 트레이닝 부분까지만 블로그에 정리를 하고 마친다.