Deep Residual Learning for Image Recognition (ResNet)
Deep Residual Learning for Image Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun (Submitted on 10 Dec 2015) arXiv : 1512.03385 CIFAR-10을 이용한 plain network 의 20층, 50층짜리 비교 그림이다. test & training error 모두 56층 plain net이 더 높은 에러율을 보인다. test의 경우 overfitting이 발생하면 더 높을 수 있지만 만일 정말 overfitting이라면 training error는 56층이 더 낮아야한다. 여기서 의문이 생긴다. 네트워크가 deep할수록 더 좋은 성능을 보일 것이라 생각했는데 그렇지가 않았기 때문이다...