티스토리 뷰

AI/논문 리뷰 Paper Review

DCGAN : ICLR 2016

해드위그 2024. 1. 28. 17:02

Alec Radford & Luke Metz

DCGAN : UNSUPERVISED REPRESENTATION LEARNINGWITH DEEP CONVOLUTIONALGENERATIVE ADVERSARIAL NETWORKS

INTRODUCTION

GANs have been known to be unstable to train, often resulting in generators that produce nonsensical outputs.

CNN을 활용한 비지도학습으로 지도학습과 비지도학습의 차이를 줄인다.

CNN을 활용하여 안정적인 train을 가능하게 했으며 이를 DCGAN이라고 한다.
판별기를 이미지 분류기 작업으로 사용하였고, 다른 비지도학습 알고리즘들에 경쟁적인 성능을 보여준다.
DCGAN에 의해 학습된 필터를 보여주고, 특정 필터가 특정한 objects를 생성하게 학습할 수 있다는 것을 보여준다.
DCGAN은 생성자가 생성된 샘플들을 잘 조절하도록 하는 백터의 산술 특성을 가지는 것을 보여준다.

RELATED WORK

Generative Adversarial Networks (Goodfellow et al., 2014) generated images suffering from being noisy and incomprehensible.

GAN의 문제점

- 훈련할 때 안정성이 떨어짐.

- 고해상도 이미지를 생성하기 어려움.

APPROACH AND MODEL ARCHITECTURE

- CNN을 사용하여 GAN을 scale up 하여 이미지를 모델링하려는 시도들은 이미 있었지만, 성공적이지 못했다. ex) LAPGAN

- 광범위한 모델 탐색 후, 다양한 데이터셋에서 안정적인 학습과 더 높은 해상도, 깊은 생성 모델을 학습할 수 있는 구조를 확인했다.

- 우리의 접근의 핵심은 최근 CNN 구조의 3가지 변화를 수정하고 채택한 것이다.

1. Max pooling to Strided Convolution

Spatial Pooling은 down sample의 대표적인 기법, 따로 Max pooling layer를 넣어 spatial resolution을 낮춰주는 작업을 진행.

Spatial downsampling을 학습하게 했다. 이 접근을 넣어 Generator는 Spatial downsampling 과정을 함께 학습시킬 수 있게 하고, Discriminator에서는 spatial upsampling이 가능하게 했다.

2. FC layer 제거

convolution feature의 top에 fully connected layer를 제거하는 것이다. 예시로 이미지 분류 모델에 활용된 global average pooling이 있다. 이것은 모델 안정성을 향상시켰지만, 수렴 속도를 손상시켰다. 중간 영역은 잘 작동함.

마지막에 D의 output결과를 판단하는 softmax layer와 G에서 z를 input으로 넣는 첫 번째 layer를 제외하고 모든 FC layers를 제거

3. 배치정규화 사용

각 유닛에 대한 입력을 평균과 단위 분산이 0이 되도록 정규화하여 학습을 안정화한다. 초기화 불량으로 인해 발생하는 훈련 문제를 해결하고 심층 모델에서 gradient flow을 돕는다. 이는 deep generator가 학습을 시작하도록 하는 데 중요한 것으로 입증되었으며, generator가 GAN에서 흔히 관찰되는 실패 모드인 single point로 붕괴하는 것을 방지한다.

모든 layer에 batchnorm을 직접 적용하면 샘플의 진동과 모델의 불안정성이 발생함.

-> generator output layer와 discriminator input layer에 적용하지 않음으로 방지할 수 있음.

GAN논문에서 maxout 활성화 사용 VS discriminator에서, 특히 고해상도모델에서 leaky rectified 활성화 사용

안정적인 Deep Convolution GANs를 위한 구조 가이드

1. strided convolutions(판별자), fractional-strided convolutions(생성자)로 대체

2. 생성기와 판별기 모두 batchnorm 사용 (Generator의 output layer와 Discriminator의 input layer 제외)

3. 더 깊은 구조를 위해 fully connected hidden layers 제거

4. Generator의 output에는 Tanh를 사용하고, 나머지는 ReLU를 사용

5. 모든 layers에 대해 Discriminator(판별자)에서 LeakyReLU 활성화 사용

DETAILS OF ADVERSARIAL TRAINING

input으로 100 x 1의 noise vector를 사용하여 Project and reshape라는 layer를 통해 1024 x 4 x 4로 확장이 된다.

그리고 convolution layer로 넘어가 fractional-strided convolution layer를 거치며 64 x 64 pixel의 이미지를 생성한다.

판별자는 input으로 64 x 64 크기의 이미지를 받아 마지막 sigmoid로 1 or 0의 1차원 결과를 출력한다.

활성화 함수는 LeakyReLU를 사용하는데, ReLU와 다른 점은 LeakyReLU는 음수영역에서 약간의 기울기를 갖는 값을 출력한다는 점이 다르다.

DCGAN을 3개의 데이터셋: LSUN, 이미지넷, 새롭게 조합된 얼굴 데이터셋에 대해 학습했다.

- 학습 이미지에는 전처리가 적용되지 않았고, tanh activation 함수의 [-1, 1]의 범위로 스케일링

- 모든 모델들은 SGD로 미니 배치 사이즈 128로 학습.

- 모든 가중치들은 zero-centered 정규 분포로 표준 편차 0.02로 초기화.

- LeakyReLU에서 모든 모델에 leak의 slope는 0.2로 설정.

- 이전의 GAN 연구들은 학습을 가속하기 위해서 모멘텀을 사용 VS 우리는 조정된 하이퍼파라미터를 사용해서 Adam 옵티마이저를 사용

- learning rate 0.0002를 제안

- 추가적으로 모멘텀 beta1을 0.9로 두었을 때 training oscillation과 불안정성이 발견, 0.5로 두었을 때 학습 안정에 도움.

4.1 LSUN

- 침실사진

- 3백만장 이상의 학습 샘플

- 이미지 중복 제거 작업

- 100개 중 1개 미만의 false positive -> 높은 정확도

- 부분부분 noise가 발생해서 underfitting됨.

4.2 Faces

OpenCV 얼굴 검출을 사용해서 고해상도 이미지 검출

4.3 IMAGENET

EMPIRICAL VALIDATION OF DCGANS CAPABILITIES

5.1 Classifying CIFAR-10 using GANs as feature extractor

- 성능

INVESTIGATING AND VISUALIZING THE INTERNALS OF THE NETWORKS

6.1 Walking in the Latent Space

- G의 input z의 공간인 latent Space에서 $z_{1}$ 에서 $z_{2}$ 로 살짝 이동한다 하더라도 급작스러운 변화가 일어나지 않고, 부드러운 변화를 보여줘야 한다.

- 각 줄 마다 z(latent vector)의 값을 조금씩 바꿔가면서 부드럽게 결과가 변경되는 것을 확인할 수 있다.

- 특히 마지막 줄은 z의 값을 변화시켜 얻은 결과로, 왼쪽에 있던 티비가 창문으로 변화한 것을 확인할 수 있다.

6.2 Visualizing the Discriminator Features

- CNN의 Black Box는 중간에 어떤 feature map이 어떠한 작용을 해서 이런 결과가 나오는지, 인과관계를 명확하게 설명할 수 없는 문제점이 있었다. DCGAN에서는 Discriminator에 학습을 시킨 결과, 필터에서 침대나 창문 같이 침실의 특정 부분에서 활성화 되는 필터들을 발견했다. 즉, 다시말하면 필터들이 침대의 일부분을 학습한 것을 볼 수 있음.

6.3 Manipulating the Generator Representation

6.3.1 FORGETTING TO DRAW CERTAIN OBJECTS
- 학습이 잘 되어있는 filter를 dropout 시켜서 이미지에서 해당 filter가 맡고 있던 부분을 제거하는 것을 보여준다.

- 논문에서 진행한 실험은

1. 150개의 sample image에서 52개의 window를 찾아내 bounding box 처리를 한다.
2. 고차원 feature(high-level feature)중 window를 activate하는 feature를 고른다.
3. 고르는 방법은 window bounding boxes안에서는 positive한 결과를 보이고, 다른 랜덤 이미지에서는 negative한 반응을 보이는 필터를 찾는다.
원본이 윗줄, window 필터를 dropout 한게 아래줄이다. window가 사라진 것을 확인할 수 있다.

6.3.2 VECTOR ARITHMETIC ON FACE SAMPLES

- 벡터연산을 DCGAN에서도 사용할 수 있음.

- ex) vector(“King”) - vector(“Man”) + vector(“Woman”) 의 결과는 가장 근접한 이웃의 벡터인 Queen의 결과를 증명.

- 각 카테고리 마다 세개의 z를 평균내서 Z vector를 생성하고, 평균값으로 구한 각 Z vector들을 연산해주면 결과가 나온다.

- ex) 안경을 쓴 남자 - 안경을 안 쓴 남자 + 안경을 안 쓴 여자 = 안경을 쓴 여자

- 회전 : 왼쪽을 보고 있는 얼굴과 오른쪽을 보고 있는 얼굴 벡터들의 평균을 계산 후, 두 벡터를 잇는 축을 interpolate해서 G에 대입한 결과, 회전하는 얼굴들이 나옴.

CONCLUSION AND FUTURE WORK

- 모델 불안정성 collapse 문제

- 이 프레임워크를 비디오, 오디오와 같은 다른 도메인에 확장하는 것도 흥미로울 것이라 생각

저작자표시

'AI > 논문 리뷰 Paper Review' 카테고리의 다른 글

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (0)	2024.05.21
Wasserstein GAN : arXiv 2017 \| 논문 리뷰 (0)	2024.03.03
Pix2Pix : CVPR 2017 (0)	2024.02.07
Generative Adversarial Nets : arXive 2014 (0)	2024.01.15

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/07 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

글 보관함

🌍 Hello World :D

티스토리 뷰

DCGAN : ICLR 2016

INTRODUCTION

RELATED WORK

APPROACH AND MODEL ARCHITECTURE

DETAILS OF ADVERSARIAL TRAINING

EMPIRICAL VALIDATION OF DCGANS CAPABILITIES

5.1 Classifying CIFAR-10 using GANs as feature extractor

INVESTIGATING AND VISUALIZING THE INTERNALS OF THE NETWORKS

6.1 Walking in the Latent Space

6.2 Visualizing the Discriminator Features

6.3 Manipulating the Generator Representation

6.3.1 FORGETTING TO DRAW CERTAIN OBJECTS
- 학습이 잘 되어있는 filter를 dropout 시켜서 이미지에서 해당 filter가 맡고 있던 부분을 제거하는 것을 보여준다.

6.3.2 VECTOR ARITHMETIC ON FACE SAMPLES

CONCLUSION AND FUTURE WORK

'AI > 논문 리뷰 Paper Review' 카테고리의 다른 글

티스토리툴바

티스토리 뷰

DCGAN : ICLR 2016

INTRODUCTION

RELATED WORK

APPROACH AND MODEL ARCHITECTURE

DETAILS OF ADVERSARIAL TRAINING

EMPIRICAL VALIDATION OF DCGANS CAPABILITIES

5.1 Classifying CIFAR-10 using GANs as feature extractor

INVESTIGATING AND VISUALIZING THE INTERNALS OF THE NETWORKS

6.1 Walking in the Latent Space

6.2 Visualizing the Discriminator Features

6.3 Manipulating the Generator Representation

6.3.1 FORGETTING TO DRAW CERTAIN OBJECTS- 학습이 잘 되어있는 filter를 dropout 시켜서 이미지에서 해당 filter가 맡고 있던 부분을 제거하는 것을 보여준다.

6.3.2 VECTOR ARITHMETIC ON FACE SAMPLES

CONCLUSION AND FUTURE WORK

'AI > 논문 리뷰 Paper Review' 카테고리의 다른 글

티스토리툴바

6.3.1 FORGETTING TO DRAW CERTAIN OBJECTS
- 학습이 잘 되어있는 filter를 dropout 시켜서 이미지에서 해당 filter가 맡고 있던 부분을 제거하는 것을 보여준다.