티스토리 뷰

AI/논문 리뷰 Paper Review

Generative Adversarial Nets : arXive 2014

해드위그 2024. 1. 15. 19:48

Ian Goodfellow$(.et al)$

Abstract

적대적 프로세스를 통해 생성모델을 추정하는 새로운 프레임워크를 제안한다.
생성모델 G와 판별모델 D 두가지 모델을 동시에 훈련한다.

GAN?

GAN은 두 개의 다른 신경망 간의 적대적인 관계로 대립(Adversarial)하며 서로의 성능을 점차 개선해 나가는 것

생성 모델 G : 데이터의 분포를 학습하는 모델
판별 모델 D : 이미지를 실제(training data) 또는 가짜(generated data)인지 분류하는 모델
Generator는 훈련 데이터의 분포를 학습하여, 임의의 노이즈를 입력으로 받아 신경망을 사용하여 이미지를 생성함.

Introduction

딥러닝의 가장 두드러진 성공은 high-dimensional, rich sensory input을 class label에 넣는 판별 모델과 관련이 있는데, 이것은 backpropagation과 dropout algorithms를 사용하는 것을 기반으로 한다.
Deep generative model은 최대 가능성 추정에서 발생하는 많은 확률 계산을 근사화하기 어렵고, 생성적인 환경에서 linear unit의 이점을 활용하기도 어렵기 때문에 영향이 적다.

이러한 어려움을 피하는 a new generative model estimation procedure을 제안한다.

adversarial nets framework에서 generative model(위조자)은 discriminative model(경찰)과 대립하고, 이 경쟁은 위조품이 진품과 구별할 수 없어질 때까지 두 모델이 방법을 개선하도록 진행된다.

이 프레임워크는 특정 훈련 알고리즘을 산출할 수 있고,

본 논문에서 생성모델이 다층퍼셉트론에 랜덤노이즈를 통과시켜 샘플을 생성하고 판별모델도 다층퍼셉트론이다.

"Adversarial net"이라고 한다. 우리는 역전파와 dropout알고리즘만 사용해서 두 모델을 훈련시킬 수 있고, 순방향전파(forward propagation)만 사용해서 생성모델의 샘플을 훈련시킬 수 있다.

Related Work

여러 개층의 잠재 변수가 있는 많은 생성 모델에서는 다루기쉬운 비정규화된 확률 밀도를 도출하는 것 조차 불가능하다.

NCE에서는 본 연구와 같이 생성 모델을 적합하게 하기위해 판별 훈련 기준을 사용한다.

그러나 생성모델을 별도의 판별모델에 맞추기보다는 생성된 데이터를 고정된 노이즈분포에서 표본을 판별하는데 사용된다.

또한 고정된 노이즈 분포를 사용하기 때문에 모델이 정확한 분포를 학습한 후, 학습 속도가 급격히 느려진다.

generative stochastic network(GSN)는 일반화된 노이즈 제거 자동 인코더를 확장하는 프레임워크다.

이것은 Markov chain을 사용하는 기계의 매개변수를 학습한다.

그러나 adversarial nets은 마르코프 체인이 필요하지 않다.

Markov chain

마르코프 성질을 가진 이산시간 확률과정이다.

마코프 특성은 과거 상태들과 현재 상태가 주어졌을 때, 미래 상태는 과거 상태와는 독립적으로 현재 상태에 의해서만 결정된다는 것을 의미한다.
다른 말로 표현하면, 과거와 현재 상태 모두를 고려했을 때 미래 상태가 나타날 확률과 현재 상태만을 고려했을 때 미래 상태가 발생할 확률이 동일하다는 것이다.

P[st+1|st]=P[st+1|s1,⋯,st]

Adversarial nets

Generative model G는 우리가 가지고있는 data x의 distribution을 알아내려고 노력한다.

만약 G가 정확히 data distribution을 모사할 수 있다면, 그 sample은 완벽히 data와 구별할 수 없다.

이러한 이미지 데이터는 다차원 특징 공간의 한 점으로 표현 됨.

얼굴 이미지도 통계적인 data distribution이 있고, 이를 수치적으로도 표현할 수 있음.

다양한 특징들이 각각 확률 변수가 되는 분포를 "다변수 확률분포"라고 함.

Discriminator model D는 현재 자기가 보고 있는 sample이 training data에서 온 것(진짜)인 지 혹은 G로부터 만들어진 것인 지를 구별하여 각각의 경우에 대한 확률을 Estimate한다.

위 그림을 보면 D는 data로부터 뽑은 sample x는 D(x)=1 이 되고,

G에 임의의 noise distribution으로부터 뽑은 input 값인 z를 넣고 만들어진 sample에 대해서는 D(G(z))=0 가 되도록 훈련을 해야한다.

즉 D는 실수할 확률을 낮추는 것을 목표로 (min), G는 D가 실수를 하도록(max)하는데

이를 "minimax two-player game or minimax problem"이라고 한다.

G와 D의 minmax 경쟁을 수식으로 표현해보면, (binary cross-entropy 확률)

위와 같이 된다.

* 최대값 :

D의 sample x가 실제 data distribution(train data)에서 나온 것이라면,

D(x) = 1 이고, 첫번째 term에서 log값이 사라진다.

G(z)가 생성한 것이라면 D(G(z)) = 0이므로 두번째 term 역시 0이 되어 사라진다.

=> 이 때가 D의 입장에서 V의 최대값을 얻을 수 있음.

* 최솟값: (G의 입장)

D가 구분을 못하는 경우 D(G(z)) = 1

진짜를 0, 가짜를 1로 판별하는 경우가 "최소"

log 안의 D값이 0이 되어 V 값이 -∞ 로 간다.

GAN 학습 과정

- 검은 점선 : data generating distribution (실제 데이터분포)

- 파란 점선: discriminator diatribution (분류 분포) -> 학습을 반복하다보면 가장 구분하기 어려운 구분 확률인 0.5 상태가 됨

- 녹색 선 : generative distribution (가짜 데이터 분포)

(a) 처음 상태에는 가 와 전혀 다르게 생긴 것을 볼 수 있고,

(b) D가 두 distribution을 구별하기 위해 학습을 하면, 잘 구별하는 distribution이 만들어진다.

(d) 학습을 반복하다 보면 결국에는 가 되어 가 둘을 구분 못하는 상태가 된다.

Theoretical Results

섹션 4.1에서 이 minmax game이 p_g=p_data에 대한 global optimum임을 보여줌

섹션 4.2에서 Algorithm 1이 value function V(G,D)를 최적화하여 원하는 결과를 얻는다는 것을 보여줄 것

Algorithm 1

적대신경망의 훈련을 위한 미니배치 확률적 경사 하강법, 하이퍼파라미터 k는 구별모델에 적용하기 위한 스텝을 나타낸다. 실험에서는 k =1 을 사용하였다.

1. noise prior p_g(z) 로부터 noise 시킨 m개의 미니배치 {z(1),...,z(m)} 샘플을 만든다.

2. 데이터 생성분포 p_data(x) 로부터 미니배치 m개의 샘플 {x(1),...,x(m)}을 평가한다.

3. 확률적 경사 상승법을 이용하여 D를 업데이트한다.

k번의 스텝이후

k-1. noise prior p_g(z) 로부터 noise 시킨 m개의 미니배치 {z(1),...,z(m)} 샘플을 만든다.

k-2. 확률적 경사 하강법을 이용하여 G를 업데이트한다.

이 실험은 momentum을 이용한 옵티마이저를 사용했다.

Experiments

MNIST, Toronto Face Database(TFD), CIFAR-10에 대해 학습 진행

G는 rectifier linear, sigmoid 활성화 함수를 혼합하여 사용, D는 maxout activation 사용

D를 학습시킬 때 Dropout사용

이 실험에서는 G로 생성된 sample에 Gaussian Parzen window맞추고, 해당 분포에 따른 log-likelihood를 알려줌으로써 P_g에 따른 test set data 확률을 추정

노란색 박스가 Gernerated sample이다.

Advantages and disadvantages

새로운 프레임워크는 장단점이 존재함.

1) 단점

pg(x)가 명시적으로 존재하지 않음.
D와 G가 균형을 잘 맞춰 동기화 되어야함(Helvetica scenario)

2) 장점

학습중 어떠한 inference가 필요 없다.
다양한 함수들이 적대적신경망 프레임워크에 접목될 수 있음
마크코브 체인을 쓸 때 보다 더 선명한 이미지를 얻을 수 있음
마크코브 체인이 전혀 필요가 없고 가중치를 얻기 위해 역전파 만이 사용됨.

Conclusions and future work

G,D 양쪽에 입력으로서 c를 더하면 conditional generative model로 발전시킬 수 있음 (CGAN) = p(x|c)
Learned approximate inference는 주어진 x를 예측하기 위해 보조 네트워크를 훈련함으로써 수행될 수 있다. 이것은 wake-sleep 알고리즘으로 학습된 inference net과 유사하지만 G가 학습을 마친 후 고정된 G에 대해 inference net이 훈련될 수 있다는 장점이 있다.

parameters를 공유하는 conditionals model를 학습함으로써 다른 conditionals models을 근사적으로 모델링할 수 있다. 특히 MP-DBM의 stochastic extension을 구현하기 위해 적대신경망을 사용할 수 있다.

Semi-supervised learning : 제한된 레이블이 있는 데이터 사용할 수 있을 때, classifiers의 성능 향상시킬 수 있다.

효율성 개선: 학습 중에 G,D를 조정하는 더 나은 방법을 찾거나 학습하는 동안 sample z에 대한 더 나은 분포를 결정함으로써 학습의 속도 높일 수 있음.

논문 내용은 어느정도 이해가 가는데 수식들이 어렵다..

저작자표시 비영리

'AI > 논문 리뷰 Paper Review' 카테고리의 다른 글

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (0)	2024.05.21
Wasserstein GAN : arXiv 2017 \| 논문 리뷰 (0)	2024.03.03
Pix2Pix : CVPR 2017 (0)	2024.02.07
DCGAN : ICLR 2016 (0)	2024.01.28

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/07 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

글 보관함

🌍 Hello World :D