0. 용어 정리
< Localization vs Object detection >
- Localization (지역화) : 이미지 내에 하나의 object 가 있을 때 위치를 알아내는 것 (보통 하나의 객체를 찾는 경우), object에 대한 bbox와 label 반환
- Detection (탐지) : localization을 통해 다수의 object를 식별하고, 각각의 위치를 알아내는 것 (보통 여러 객체를 탐지하는 경우), object들에 대한 bbox들과 그에 해당하는 label 반환
< weakly supervised localization vs superior localization >
- weakly supervised localization : 이미지 내 객체의 위치를 파악하는 데 있어 label만을 사용하여 학습 (정확한 위치 정보는 제공되지 않음)
- superior localization : 이미지 내 객체의 위치를 매우 정확하게 파악하기 위해 객체의 정확한 위치 정보와 label 을 제공해서 학습
< robustness >
: 입력 데이터의 이상치나 노이즈에 민감하게 흔들리지 않는 무던함 (과적합 되지 않음)
1. 문제 정의
이전에 제안된 regional dropout 기법들은 학습할 때 중요한 정보를 손실하고 비효율적인 학습 과정을 거치기 때문에 성능을 저하시키는 한계를 가진다. 그래서 논문에서 소개한 CutMix 기법은 이미지의 모든 부분의 특징을 봄으로써 robustness를 강화하고, generalize와 object localization 성능을 향상시킨다.
2. 논문 동기

- Regional dropout (Random erasing, Cutout, dropblock)
: 이미지 내에 random 영역을 지우는 기법들은 모델이 특정 부분에만 의존하지 않고, 객체 전체에 집중할 수 있게 함으로써 일반화 성능에 도움을 주지만 이미지의 픽셀 정보를 손실한다.
-> CutMix : 픽셀을 제거하는 대신, 제거된 영역에 다른 이미지의 패치로 교체
(* input image 에서 dropout - random erasing, cutout
feature map 에서 dropout - dropblock)
- Mixup
: 새로운 sample의 실제 label이 선형결합으로 이루어진다는 점에서 CutMix와 유사한 점이 많지만, Mixup sample은 부자연스러 모델을 혼란스럽게 한다.
3. CutMix
CutMix 기법은 두 이미지를 결합함으로써 새로운 이미지를 생성하는게 목표다. 이미지의 특정 부분을 잘라내고, 다른 이미지의 부분을 삽입함으로써 모델이 다양하고 자연스러운 이미지를 학습하게끔 한다.


해당 수식의 notation 을 정리해보면,
x : W*H*C 차원의 이미지
y : 이미지의 label
xA, xB, yA, yB: 활용하고자 하는 두 이미지와 레이블
M : W*H 차원의 {0,1} 이진 mask (0-새로운 sample에 반영하지 않는 영역, 1-새로운 sample에 반영하는 영역)
lambda : combination ratio, 베타분포(alpha, alpha)에서 뽑히는데, 이 경우 alpha=1로 설정하여 균등분포(0,1)과 동일
B = (rx, rw, ry, rh) : 이미지가 crop 되는 bbox 좌표 정보
원본 이미지 크기에 비례하는 직사각형 mask M을 샘플링하고, 위의 수식을 통해 새로운 이미지를 생성한다.

두 이미지를 Mixup, Cutout, Cutmix 세 가지 방법으로 적용한 뒤 CAM으로 찍은 사진이다.
Mixup 방식은 두 class 가 동시에 들어가있기 때문에 class별로 CAM이 구분되지 않고,
Cutout 방식은 푸들 이미지가 안들어갔음에도 불구하고, 다른 부분을 활성화하는 모습을 볼 수 있다.
Cutmix 방식은 각각 class별로 잘 활성화된 모습을 확인할 수 있다.

Cutmix 방법은 모든 이미지 영역을 사용하고, 랜덤으로 이미지 영역을 dropout 하고, 다른 이미지들과 섞어서 생성함으로써 class 객체에서 덜 중요한 부분에 대해서도 모델이 집중할 수 있도록 한다.
4. Experiments
Resnet을 basemodel로 정하고 ImageNet, CIFAR 두가지 데이터 셋으로 Image classification을 진행하고, weakly supervised object localization (WSOL) task 에 대해서 실험한다.
< Image Classification >
두가지 데이터셋에서 모두 가장 좋은 성능을 보이고, 같은 모델 여러 증강 기법중에서도 가장 좋은 성능을 보인다.
CutMix 기법의 다른 버전에서도 가장 좋은 성능을 보인다.
< WSOL >
WSOL에 대해서도 좋은 결과를 보인다.

< Transfer learning >

Detection task 나 Image Captioning 에 대해서도 좋은 성능을 보인다.
< robustness >

딥러닝 모델은 이미지에 작고 인식할 수 없는 변화만 줘고 쉽게 속을 수 있는데 이를 adversarial attack 이라고 한다. 이러한 목적을 위해 생성된 sample을 adversarial sample 이라고하는데, 이 논문에서는 세가지 경우로 실험하고 있다.
0. 용어 정리
< Localization vs Object detection >
- Localization (지역화) : 이미지 내에 하나의 object 가 있을 때 위치를 알아내는 것 (보통 하나의 객체를 찾는 경우), object에 대한 bbox와 label 반환
- Detection (탐지) : localization을 통해 다수의 object를 식별하고, 각각의 위치를 알아내는 것 (보통 여러 객체를 탐지하는 경우), object들에 대한 bbox들과 그에 해당하는 label 반환
< weakly supervised localization vs superior localization >
- weakly supervised localization : 이미지 내 객체의 위치를 파악하는 데 있어 label만을 사용하여 학습 (정확한 위치 정보는 제공되지 않음)
- superior localization : 이미지 내 객체의 위치를 매우 정확하게 파악하기 위해 객체의 정확한 위치 정보와 label 을 제공해서 학습
< robustness >
: 입력 데이터의 이상치나 노이즈에 민감하게 흔들리지 않는 무던함 (과적합 되지 않음)
1. 문제 정의
이전에 제안된 regional dropout 기법들은 학습할 때 중요한 정보를 손실하고 비효율적인 학습 과정을 거치기 때문에 성능을 저하시키는 한계를 가진다. 그래서 논문에서 소개한 CutMix 기법은 이미지의 모든 부분의 특징을 봄으로써 robustness를 강화하고, generalize와 object localization 성능을 향상시킨다.
2. 논문 동기

- Regional dropout (Random erasing, Cutout, dropblock)
: 이미지 내에 random 영역을 지우는 기법들은 모델이 특정 부분에만 의존하지 않고, 객체 전체에 집중할 수 있게 함으로써 일반화 성능에 도움을 주지만 이미지의 픽셀 정보를 손실한다.
-> CutMix : 픽셀을 제거하는 대신, 제거된 영역에 다른 이미지의 패치로 교체
(* input image 에서 dropout - random erasing, cutout
feature map 에서 dropout - dropblock)
- Mixup
: 새로운 sample의 실제 label이 선형결합으로 이루어진다는 점에서 CutMix와 유사한 점이 많지만, Mixup sample은 부자연스러 모델을 혼란스럽게 한다.
3. CutMix
CutMix 기법은 두 이미지를 결합함으로써 새로운 이미지를 생성하는게 목표다. 이미지의 특정 부분을 잘라내고, 다른 이미지의 부분을 삽입함으로써 모델이 다양하고 자연스러운 이미지를 학습하게끔 한다.


해당 수식의 notation 을 정리해보면,
x : W*H*C 차원의 이미지
y : 이미지의 label
xA, xB, yA, yB: 활용하고자 하는 두 이미지와 레이블
M : W*H 차원의 {0,1} 이진 mask (0-새로운 sample에 반영하지 않는 영역, 1-새로운 sample에 반영하는 영역)
lambda : combination ratio, 베타분포(alpha, alpha)에서 뽑히는데, 이 경우 alpha=1로 설정하여 균등분포(0,1)과 동일
B = (rx, rw, ry, rh) : 이미지가 crop 되는 bbox 좌표 정보
원본 이미지 크기에 비례하는 직사각형 mask M을 샘플링하고, 위의 수식을 통해 새로운 이미지를 생성한다.

두 이미지를 Mixup, Cutout, Cutmix 세 가지 방법으로 적용한 뒤 CAM으로 찍은 사진이다.
Mixup 방식은 두 class 가 동시에 들어가있기 때문에 class별로 CAM이 구분되지 않고,
Cutout 방식은 푸들 이미지가 안들어갔음에도 불구하고, 다른 부분을 활성화하는 모습을 볼 수 있다.
Cutmix 방식은 각각 class별로 잘 활성화된 모습을 확인할 수 있다.

Cutmix 방법은 모든 이미지 영역을 사용하고, 랜덤으로 이미지 영역을 dropout 하고, 다른 이미지들과 섞어서 생성함으로써 class 객체에서 덜 중요한 부분에 대해서도 모델이 집중할 수 있도록 한다.
4. Experiments
Resnet을 basemodel로 정하고 ImageNet, CIFAR 두가지 데이터 셋으로 Image classification을 진행하고, weakly supervised object localization (WSOL) task 에 대해서 실험한다.
< Image Classification >
두가지 데이터셋에서 모두 가장 좋은 성능을 보이고, 같은 모델 여러 증강 기법중에서도 가장 좋은 성능을 보인다.
CutMix 기법의 다른 버전에서도 가장 좋은 성능을 보인다.
< WSOL >
WSOL에 대해서도 좋은 결과를 보인다.

< Transfer learning >

Detection task 나 Image Captioning 에 대해서도 좋은 성능을 보인다.
< robustness >

딥러닝 모델은 이미지에 작고 인식할 수 없는 변화만 줘고 쉽게 속을 수 있는데 이를 adversarial attack 이라고 한다. 이러한 목적을 위해 생성된 sample을 adversarial sample 이라고하는데, 이 논문에서는 세가지 경우로 실험하고 있다.