목록paper review (7)
rueki

Original paper : https://arxiv.org/abs/2010.11929 NLP task에서 Transformer가 등장하고 나서 Vision에서도 transformer가 적용된 논문이다. 요즘 sota에 대해서 왠만한 분야 다 transformer를 사용하는 것 같아서 이번 기회에 ViT 모델에 대해서 알아보고자 리뷰를 하게 되었다. 1. introduction Transformer가 Self-Attention 기반 구조를 토대로 이루어져있는데, 이 모델의 장점이라 하면 계산이 효율적이고 확장에 용이하다는 점이다. 그러나 Vision에서는 CNN 기반 구조들이 중점인데, layer가 클 수록 모델 파라메터가 엄청나게 커지는 것을 학습하면서 다들 확인했을 것이다. 그래서 Image tas..

Abstract Image Generation에도 self-attention이 사용된 것을 소개한 논문이다. image generation task에서 long-range dependency modeling concept으로 기존의 convolution Gan이 저해상도 feature maps에서 공간적으로 local point만 이용해서 고해상도 세부 사항들을 생성했다. 모든 feature location을 통해서 오는 단서들을 이용해서 detail을 생성하고, discriminator는 이미지끼리 서로 먼 지점이여도 세부 디테일이 비슷한지 확인을 해준다. 그리고 SAGAN에서 추가로 사용하는 개념은 Spectral normalization을 generator에 사용을 하는데, 이는 동적 trainin..

Abstract model scaling과 네트워크의 depth, width, resolution의 균형으로 모델 성능을 개선하겠다는 것이 목적이다. Compound coefficient를 통해서 depth, width, resolution의 모든 차원들을 scaling 하는 새로운 method를 제안한다. EfficientNet-B7로 imageNet top-1 accuracy로 84.3 프로를 달성했다고 하며, 월등한 성능을 보인다고 한다. 1. Introduction Scailing up을 통한 성능개선은 계속 이어져왔다. ResNet의 경우 18 layer에서 200 layer까지 확장을 했었다. 이전의 모델들과 비교를 한 결과를 봤을 때, EfficientNet의 파라메터 수가 다른 모델보다 적..