Vision Transformer
·
AI Tech 7기/Computer Vision
Transformer 모델에 영감을 받아 vision 분야에도 도입하게 된 Vision Transformer 이다. 이후, ViT 를 backbone으로 한 다양한 vision architecture들이 제안되고 있다. Transformer 모델의 디코더는 사용하지 않고 인코더만 사용하기 때문에 input 파트 부분이 중요하다. 구조는 위와 같고, 크게 4가지 단계로 나눌 수 있다. 1. 이미지를 작은 패치로 나누어 토큰화 하2. Position Embedding 더하기 3. Transformer Encoder4. MLP (Classification) Head (가정) img_size = (224, 224), patch_size = (16, 16), stride = 16 1. 이미지를 작은 패치로 나..