DreamFusion
·
AI Tech 7기/Computer Vision
1. DreamFusion 소개 DreamFusion 은 2D 이미지 생성 모델인 Diffusion Model 과 3D reconstruction model인 NeRF 을 통합한 새로운 모델로서, 사전학습된 2D text to image 모델을 사용해서 text(condition) 입력에 부합하는 3D 모형을 생성해내는 것이 목표다. 3D data 학습 없이 3D data를 생성해내는 zero shot 모델로서  2D model을 활용하여 여러 가능성을 보여준 모델이다.  어떻게 학습하는지를 간단하게 살펴보면, 텍스트 입력을 기반으로 디퓨전 모델이 생성한 가상의 2D 이미지를 바탕으로 NeRF 가 3D 모형을 만들고 다시 2D 로 렌더링했을 때, 이 이미지와 처음 디퓨전 모델이 생성한 2D 이미지와 얼마..
AE(Auto Encoder), VAE(Variational Auto Encoder)
·
AI Tech 7기/Computer Vision
1. AE (Auto Encoder)오토인코더는 데이터를 압축하고 복원하는 과정에서 중요한 특징들을 학습하는 것이 목적이다. 그렇기 때문에 학습한 대로 어떤 이미지를 넣으면 그대로 복원하는 것은 가능하지만, 잠재공간 벡터를 사용자가 조절해서 새로운 이미지를 생성해내는 데에는 한계가 있다. (그래서 생성형 모델이 아니다.) encoder + latent space + decoder 의 구조로 이루어져 있고 각각의 역할은 다음과 같다. encoder : 데이터를 입력받아 더 작은 차원으로 압축latent space : 잠재공간decoder : 인코더에서 만들어진 압축된 표현을 다시 원래대로 복원  일종의 self supervised training (비지도 학습) label 데이터 없이 학습하며, 원본 데이..
CNN 시각화
·
AI Tech 7기/Computer Vision
CNN의 내부 black box 구조에 가깝기 때문 다른 아키텍쳐들보다 모델이 왜 성능이 좋은지, 왜 잘 돌아가는지 확인이 어렵다.그래서 모델이 동작하는 과정에 힌트를 얻을 수 있도록 디버깅 툴로서 visualization tool 을 사용하고 있다. 크게 모델의 행동, 동작 방식을 분석하는 방법들과 데이터를 중심으로 모델의 예측 결과를 분석하는 방법으로 나눌 수 있다.  1. Analysis of model behaviors (모델의 행동 분석)1-1. Filter weight visualization convolution filter 사이즈가 큰 경우에만 적용가능하긴 하지만, convolution 의 역연산인 deconvolution 을 활용하여 CNN layer 들이 어떤 정보를 가지고 있는지 확인..
Vision Transformer
·
AI Tech 7기/Computer Vision
Transformer 모델에 영감을 받아 vision 분야에도 도입하게 된 Vision Transformer 이다. 이후, ViT 를 backbone으로 한 다양한 vision architecture들이 제안되고 있다.  Transformer 모델의 디코더는 사용하지 않고 인코더만 사용하기 때문에 input 파트 부분이 중요하다.  구조는 위와 같고, 크게 4가지 단계로 나눌 수 있다. 1. 이미지를 작은 패치로 나누어 토큰화 하2. Position Embedding 더하기 3. Transformer Encoder4. MLP (Classification) Head (가정) img_size = (224, 224), patch_size = (16, 16), stride = 16 1. 이미지를 작은 패치로 나..
CNN 아키텍쳐
·
AI Tech 7기/Computer Vision
1. CNN 의 등장Neural Network 중 가장 간단한 Fully Connected Neural Network 를 생각해보자.모든 layer가 완전 연결 layer 로 구성되어 있어 입력에 대해서 각 픽셀마다 개별적인 weight 들로 선형결합을 하고, 각 class의 결과를 예측하는 네트워크다.  그렇다면 이 네트워크가 이미지 분류 문제도 잘 해결할 수 있을까?각 class 에 대응하는 weight 를 통해 데이터 평균 프로토타입 이미지를 만들어내는데 이 이미지가 해당 class의 모든 이미지를 대표할 수 없다는 것이 가장 큰 단점이다. 예를 들어, crop된 같은 class 이미지가 입력으로 주어진다면, 잘 예측하지 못할 것이다.  그렇게 해서 CNN이 등장하게 됐다.locally connec..
sweetpotato7
'AI Tech 7기/Computer Vision' 카테고리의 글 목록