ํฐ์คํ ๋ฆฌ ๋ทฐ
Generative Adversarial Nets : arXive 2014
ํด๋์๊ทธ 2024. 1. 15. 19:48Ian Goodfellow$(.et al)$
Abstract
์ ๋์ ํ๋ก์ธ์ค๋ฅผ ํตํด ์์ฑ๋ชจ๋ธ์ ์ถ์ ํ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
์์ฑ๋ชจ๋ธ G์ ํ๋ณ๋ชจ๋ธ D ๋๊ฐ์ง ๋ชจ๋ธ์ ๋์์ ํ๋ จํ๋ค.
GAN?
GAN์ ๋ ๊ฐ์ ๋ค๋ฅธ ์ ๊ฒฝ๋ง ๊ฐ์ ์ ๋์ ์ธ ๊ด๊ณ๋ก ๋๋ฆฝ(Adversarial)ํ๋ฉฐ ์๋ก์ ์ฑ๋ฅ์ ์ ์ฐจ ๊ฐ์ ํด ๋๊ฐ๋ ๊ฒ
- ์์ฑ ๋ชจ๋ธ G : ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ํ์ตํ๋ ๋ชจ๋ธ
- ํ๋ณ ๋ชจ๋ธ D : ์ด๋ฏธ์ง๋ฅผ ์ค์ (training data) ๋๋ ๊ฐ์ง(generated data)์ธ์ง ๋ถ๋ฅํ๋ ๋ชจ๋ธ
Generator๋ ํ๋ จ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ํ์ตํ์ฌ, ์์์ ๋ ธ์ด์ฆ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑํจ.
Introduction
๋ฅ๋ฌ๋์ ๊ฐ์ฅ ๋๋๋ฌ์ง ์ฑ๊ณต์ high-dimensional, rich sensory input์ class label์ ๋ฃ๋ ํ๋ณ ๋ชจ๋ธ๊ณผ ๊ด๋ จ์ด ์๋๋ฐ, ์ด๊ฒ์ backpropagation๊ณผ dropout algorithms๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค.
Deep generative model์ ์ต๋ ๊ฐ๋ฅ์ฑ ์ถ์ ์์ ๋ฐ์ํ๋ ๋ง์ ํ๋ฅ ๊ณ์ฐ์ ๊ทผ์ฌํํ๊ธฐ ์ด๋ ต๊ณ , ์์ฑ์ ์ธ ํ๊ฒฝ์์ linear unit์ ์ด์ ์ ํ์ฉํ๊ธฐ๋ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์ํฅ์ด ์ ๋ค.
์ด๋ฌํ ์ด๋ ค์์ ํผํ๋ a new generative model estimation procedure์ ์ ์ํ๋ค.
adversarial nets framework์์ generative model(์์กฐ์)์ discriminative model(๊ฒฝ์ฐฐ)๊ณผ ๋๋ฆฝํ๊ณ , ์ด ๊ฒฝ์์ ์์กฐํ์ด ์งํ๊ณผ ๊ตฌ๋ณํ ์ ์์ด์ง ๋๊น์ง ๋ ๋ชจ๋ธ์ด ๋ฐฉ๋ฒ์ ๊ฐ์ ํ๋๋ก ์งํ๋๋ค.
์ด ํ๋ ์์ํฌ๋ ํน์ ํ๋ จ ์๊ณ ๋ฆฌ์ฆ์ ์ฐ์ถํ ์ ์๊ณ ,
๋ณธ ๋ ผ๋ฌธ์์ ์์ฑ๋ชจ๋ธ์ด ๋ค์ธตํผ์ ํธ๋ก ์ ๋๋ค๋ ธ์ด์ฆ๋ฅผ ํต๊ณผ์์ผ ์ํ์ ์์ฑํ๊ณ ํ๋ณ๋ชจ๋ธ๋ ๋ค์ธตํผ์ ํธ๋ก ์ด๋ค.
"Adversarial net"์ด๋ผ๊ณ ํ๋ค. ์ฐ๋ฆฌ๋ ์ญ์ ํ์ dropout์๊ณ ๋ฆฌ์ฆ๋ง ์ฌ์ฉํด์ ๋ ๋ชจ๋ธ์ ํ๋ จ์ํฌ ์ ์๊ณ , ์๋ฐฉํฅ์ ํ(forward propagation)๋ง ์ฌ์ฉํด์ ์์ฑ๋ชจ๋ธ์ ์ํ์ ํ๋ จ์ํฌ ์ ์๋ค.
Related Work
์ฌ๋ฌ ๊ฐ์ธต์ ์ ์ฌ ๋ณ์๊ฐ ์๋ ๋ง์ ์์ฑ ๋ชจ๋ธ์์๋ ๋ค๋ฃจ๊ธฐ์ฌ์ด ๋น์ ๊ทํ๋ ํ๋ฅ ๋ฐ๋๋ฅผ ๋์ถํ๋ ๊ฒ ์กฐ์ฐจ ๋ถ๊ฐ๋ฅํ๋ค.
NCE์์๋ ๋ณธ ์ฐ๊ตฌ์ ๊ฐ์ด ์์ฑ ๋ชจ๋ธ์ ์ ํฉํ๊ฒ ํ๊ธฐ์ํด ํ๋ณ ํ๋ จ ๊ธฐ์ค์ ์ฌ์ฉํ๋ค.
๊ทธ๋ฌ๋ ์์ฑ๋ชจ๋ธ์ ๋ณ๋์ ํ๋ณ๋ชจ๋ธ์ ๋ง์ถ๊ธฐ๋ณด๋ค๋ ์์ฑ๋ ๋ฐ์ดํฐ๋ฅผ ๊ณ ์ ๋ ๋ ธ์ด์ฆ๋ถํฌ์์ ํ๋ณธ์ ํ๋ณํ๋๋ฐ ์ฌ์ฉ๋๋ค.
๋ํ ๊ณ ์ ๋ ๋ ธ์ด์ฆ ๋ถํฌ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ด ์ ํํ ๋ถํฌ๋ฅผ ํ์ตํ ํ, ํ์ต ์๋๊ฐ ๊ธ๊ฒฉํ ๋๋ ค์ง๋ค.
generative stochastic network(GSN)๋ ์ผ๋ฐํ๋ ๋ ธ์ด์ฆ ์ ๊ฑฐ ์๋ ์ธ์ฝ๋๋ฅผ ํ์ฅํ๋ ํ๋ ์์ํฌ๋ค.
์ด๊ฒ์ Markov chain์ ์ฌ์ฉํ๋ ๊ธฐ๊ณ์ ๋งค๊ฐ๋ณ์๋ฅผ ํ์ตํ๋ค.
๊ทธ๋ฌ๋ adversarial nets์ ๋ง๋ฅด์ฝํ ์ฒด์ธ์ด ํ์ํ์ง ์๋ค.
Markov chain
๋ง๋ฅด์ฝํ ์ฑ์ง์ ๊ฐ์ง ์ด์ฐ์๊ฐ ํ๋ฅ ๊ณผ์ ์ด๋ค.
๋ง์ฝํ ํน์ฑ์ ๊ณผ๊ฑฐ ์ํ๋ค๊ณผ ํ์ฌ ์ํ๊ฐ ์ฃผ์ด์ก์ ๋, ๋ฏธ๋ ์ํ๋ ๊ณผ๊ฑฐ ์ํ์๋ ๋
๋ฆฝ์ ์ผ๋ก ํ์ฌ ์ํ์ ์ํด์๋ง ๊ฒฐ์ ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
๋ค๋ฅธ ๋ง๋ก ํํํ๋ฉด, ๊ณผ๊ฑฐ์ ํ์ฌ ์ํ ๋ชจ๋๋ฅผ ๊ณ ๋ คํ์ ๋ ๋ฏธ๋ ์ํ๊ฐ ๋ํ๋ ํ๋ฅ ๊ณผ ํ์ฌ ์ํ๋ง์ ๊ณ ๋ คํ์ ๋ ๋ฏธ๋ ์ํ๊ฐ ๋ฐ์ํ ํ๋ฅ ์ด ๋์ผํ๋ค๋ ๊ฒ์ด๋ค.
P[st+1|st]=P[st+1|s1,โฏ,st]
Adversarial nets
Generative model G๋ ์ฐ๋ฆฌ๊ฐ ๊ฐ์ง๊ณ ์๋ data x์ distribution์ ์์๋ด๋ ค๊ณ ๋ ธ๋ ฅํ๋ค.
๋ง์ฝ G๊ฐ ์ ํํ data distribution์ ๋ชจ์ฌํ ์ ์๋ค๋ฉด, ๊ทธ sample์ ์๋ฒฝํ data์ ๊ตฌ๋ณํ ์ ์๋ค.
์ด๋ฌํ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ ๋ค์ฐจ์ ํน์ง ๊ณต๊ฐ์ ํ ์ ์ผ๋ก ํํ ๋จ.
์ผ๊ตด ์ด๋ฏธ์ง๋ ํต๊ณ์ ์ธ data distribution์ด ์๊ณ , ์ด๋ฅผ ์์น์ ์ผ๋ก๋ ํํํ ์ ์์.
๋ค์ํ ํน์ง๋ค์ด ๊ฐ๊ฐ ํ๋ฅ ๋ณ์๊ฐ ๋๋ ๋ถํฌ๋ฅผ "๋ค๋ณ์ ํ๋ฅ ๋ถํฌ"๋ผ๊ณ ํจ.
Discriminator model D๋ ํ์ฌ ์๊ธฐ๊ฐ ๋ณด๊ณ ์๋ sample์ด training data์์ ์จ ๊ฒ(์ง์ง)์ธ ์ง ํน์ G๋ก๋ถํฐ ๋ง๋ค์ด์ง ๊ฒ์ธ ์ง๋ฅผ ๊ตฌ๋ณํ์ฌ ๊ฐ๊ฐ์ ๊ฒฝ์ฐ์ ๋ํ ํ๋ฅ ์ Estimateํ๋ค.
์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด D๋ data๋ก๋ถํฐ ๋ฝ์ sample x๋ D(x)=1 ์ด ๋๊ณ ,
G์ ์์์ noise distribution์ผ๋ก๋ถํฐ ๋ฝ์ input ๊ฐ์ธ z๋ฅผ ๋ฃ๊ณ ๋ง๋ค์ด์ง sample์ ๋ํด์๋ D(G(z))=0 ๊ฐ ๋๋๋ก ํ๋ จ์ ํด์ผํ๋ค.
์ฆ D๋ ์ค์ํ ํ๋ฅ ์ ๋ฎ์ถ๋ ๊ฒ์ ๋ชฉํ๋ก (min), G๋ D๊ฐ ์ค์๋ฅผ ํ๋๋ก(max)ํ๋๋ฐ
์ด๋ฅผ "minimax two-player game or minimax problem"์ด๋ผ๊ณ ํ๋ค.
G์ D์ minmax ๊ฒฝ์์ ์์์ผ๋ก ํํํด๋ณด๋ฉด, (binary cross-entropy ํ๋ฅ )
์์ ๊ฐ์ด ๋๋ค.
* ์ต๋๊ฐ :
D์ sample x๊ฐ ์ค์ data distribution(train data)์์ ๋์จ ๊ฒ์ด๋ผ๋ฉด,
D(x) = 1 ์ด๊ณ , ์ฒซ๋ฒ์งธ term์์ log๊ฐ์ด ์ฌ๋ผ์ง๋ค.
G(z)๊ฐ ์์ฑํ ๊ฒ์ด๋ผ๋ฉด D(G(z)) = 0์ด๋ฏ๋ก ๋๋ฒ์งธ term ์ญ์ 0์ด ๋์ด ์ฌ๋ผ์ง๋ค.
=> ์ด ๋๊ฐ D์ ์ ์ฅ์์ V์ ์ต๋๊ฐ์ ์ป์ ์ ์์.
* ์ต์๊ฐ: (G์ ์ ์ฅ)
D๊ฐ ๊ตฌ๋ถ์ ๋ชปํ๋ ๊ฒฝ์ฐ D(G(z)) = 1
์ง์ง๋ฅผ 0, ๊ฐ์ง๋ฅผ 1๋ก ํ๋ณํ๋ ๊ฒฝ์ฐ๊ฐ "์ต์"
log ์์ D๊ฐ์ด 0์ด ๋์ด V ๊ฐ์ด -∞ ๋ก ๊ฐ๋ค.
GAN ํ์ต ๊ณผ์
- ๊ฒ์ ์ ์ : data generating distribution (์ค์ ๋ฐ์ดํฐ๋ถํฌ)
- ํ๋ ์ ์ : discriminator diatribution (๋ถ๋ฅ ๋ถํฌ) -> ํ์ต์ ๋ฐ๋ณตํ๋ค๋ณด๋ฉด ๊ฐ์ฅ ๊ตฌ๋ถํ๊ธฐ ์ด๋ ค์ด ๊ตฌ๋ถ ํ๋ฅ ์ธ 0.5 ์ํ๊ฐ ๋จ
- ๋ น์ ์ : generative distribution (๊ฐ์ง ๋ฐ์ดํฐ ๋ถํฌ)
(a) ์ฒ์ ์ํ์๋ ๊ฐ ์ ์ ํ ๋ค๋ฅด๊ฒ ์๊ธด ๊ฒ์ ๋ณผ ์ ์๊ณ ,
(b) D๊ฐ ๋ distribution์ ๊ตฌ๋ณํ๊ธฐ ์ํด ํ์ต์ ํ๋ฉด, ์ ๊ตฌ๋ณํ๋ distribution์ด ๋ง๋ค์ด์ง๋ค.
(c) G๊ฐ ํ์ฌ D๊ฐ ๊ตฌ๋ณํ๊ธฐ ์ด๋ ค์ด ๋ฐฉํฅ์ผ๋ก ํ์ต์ ํ๋ฉด, ์ข ๋ ๊ฐ ์ ๊ฐ๊น์์ง๊ฒ ๋๋ค.
(d) ํ์ต์ ๋ฐ๋ณตํ๋ค ๋ณด๋ฉด ๊ฒฐ๊ตญ์๋ ๊ฐ ๋์ด ๊ฐ ๋์ ๊ตฌ๋ถ ๋ชปํ๋ ์ํ๊ฐ ๋๋ค.
Theoretical Results
์น์ 4.1์์ ์ด minmax game์ด p_g=p_data์ ๋ํ global optimum์์ ๋ณด์ฌ์ค
์น์ 4.2์์ Algorithm 1์ด value function V(G,D)๋ฅผ ์ต์ ํํ์ฌ ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค ๊ฒ
Algorithm 1
์ ๋์ ๊ฒฝ๋ง์ ํ๋ จ์ ์ํ ๋ฏธ๋๋ฐฐ์น ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ, ํ์ดํผํ๋ผ๋ฏธํฐ k๋ ๊ตฌ๋ณ๋ชจ๋ธ์ ์ ์ฉํ๊ธฐ ์ํ ์คํ ์ ๋ํ๋ธ๋ค. ์คํ์์๋ k =1 ์ ์ฌ์ฉํ์๋ค.
1. noise prior p_g(z) ๋ก๋ถํฐ noise ์ํจ m๊ฐ์ ๋ฏธ๋๋ฐฐ์น {z(1),...,z(m)} ์ํ์ ๋ง๋ ๋ค.
2. ๋ฐ์ดํฐ ์์ฑ๋ถํฌ p_data(x) ๋ก๋ถํฐ ๋ฏธ๋๋ฐฐ์น m๊ฐ์ ์ํ {x(1),...,x(m)}์ ํ๊ฐํ๋ค.
3. ํ๋ฅ ์ ๊ฒฝ์ฌ ์์น๋ฒ์ ์ด์ฉํ์ฌ D๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
k๋ฒ์ ์คํ ์ดํ
k-1. noise prior p_g(z) ๋ก๋ถํฐ noise ์ํจ m๊ฐ์ ๋ฏธ๋๋ฐฐ์น {z(1),...,z(m)} ์ํ์ ๋ง๋ ๋ค.
k-2. ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ์ด์ฉํ์ฌ G๋ฅผ ์ ๋ฐ์ดํธํ๋ค.
์ด ์คํ์ momentum์ ์ด์ฉํ ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํ๋ค.
Experiments
- MNIST, Toronto Face Database(TFD), CIFAR-10์ ๋ํด ํ์ต ์งํ
- G๋ rectifier linear, sigmoid ํ์ฑํ ํจ์๋ฅผ ํผํฉํ์ฌ ์ฌ์ฉ, D๋ maxout activation ์ฌ์ฉ
- D๋ฅผ ํ์ต์ํฌ ๋ Dropout์ฌ์ฉ
- ์ด ์คํ์์๋ G๋ก ์์ฑ๋ sample์ Gaussian Parzen window๋ง์ถ๊ณ , ํด๋น ๋ถํฌ์ ๋ฐ๋ฅธ log-likelihood๋ฅผ ์๋ ค์ค์ผ๋ก์จ P_g์ ๋ฐ๋ฅธ test set data ํ๋ฅ ์ ์ถ์
๋ ธ๋์ ๋ฐ์ค๊ฐ Gernerated sample์ด๋ค.
Advantages and disadvantages
์๋ก์ด ํ๋ ์์ํฌ๋ ์ฅ๋จ์ ์ด ์กด์ฌํจ.
1) ๋จ์
- pg(x)๊ฐ ๋ช ์์ ์ผ๋ก ์กด์ฌํ์ง ์์.
- D์ G๊ฐ ๊ท ํ์ ์ ๋ง์ถฐ ๋๊ธฐํ ๋์ด์ผํจ(Helvetica scenario)
2) ์ฅ์
- ํ์ต์ค ์ด๋ ํ inference๊ฐ ํ์ ์๋ค.
- ๋ค์ํ ํจ์๋ค์ด ์ ๋์ ์ ๊ฒฝ๋ง ํ๋ ์์ํฌ์ ์ ๋ชฉ๋ ์ ์์
- ๋งํฌ์ฝ๋ธ ์ฒด์ธ์ ์ธ ๋ ๋ณด๋ค ๋ ์ ๋ช ํ ์ด๋ฏธ์ง๋ฅผ ์ป์ ์ ์์
- ๋งํฌ์ฝ๋ธ ์ฒด์ธ์ด ์ ํ ํ์๊ฐ ์๊ณ ๊ฐ์ค์น๋ฅผ ์ป๊ธฐ ์ํด ์ญ์ ํ ๋ง์ด ์ฌ์ฉ๋จ.
Conclusions and future work
-
G,D ์์ชฝ์ ์ ๋ ฅ์ผ๋ก์ c๋ฅผ ๋ํ๋ฉด conditional generative model๋ก ๋ฐ์ ์ํฌ ์ ์์ (CGAN) = p(x|c)
-
Learned approximate inference๋ ์ฃผ์ด์ง x๋ฅผ ์์ธกํ๊ธฐ ์ํด ๋ณด์กฐ ๋คํธ์ํฌ๋ฅผ ํ๋ จํจ์ผ๋ก์จ ์ํ๋ ์ ์๋ค. ์ด๊ฒ์ wake-sleep ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ต๋ inference net๊ณผ ์ ์ฌํ์ง๋ง G๊ฐ ํ์ต์ ๋ง์น ํ ๊ณ ์ ๋ G์ ๋ํด inference net์ด ํ๋ จ๋ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
-
parameters๋ฅผ ๊ณต์ ํ๋ conditionals model๋ฅผ ํ์ตํจ์ผ๋ก์จ ๋ค๋ฅธ conditionals models์ ๊ทผ์ฌ์ ์ผ๋ก ๋ชจ๋ธ๋งํ ์ ์๋ค. ํนํ MP-DBM์ stochastic extension์ ๊ตฌํํ๊ธฐ ์ํด ์ ๋์ ๊ฒฝ๋ง์ ์ฌ์ฉํ ์ ์๋ค.
-
Semi-supervised learning : ์ ํ๋ ๋ ์ด๋ธ์ด ์๋ ๋ฐ์ดํฐ ์ฌ์ฉํ ์ ์์ ๋, classifiers์ ์ฑ๋ฅ ํฅ์์ํฌ ์ ์๋ค.
- ํจ์จ์ฑ ๊ฐ์ : ํ์ต ์ค์ G,D๋ฅผ ์กฐ์ ํ๋ ๋ ๋์ ๋ฐฉ๋ฒ์ ์ฐพ๊ฑฐ๋ ํ์ตํ๋ ๋์ sample z์ ๋ํ ๋ ๋์ ๋ถํฌ๋ฅผ ๊ฒฐ์ ํจ์ผ๋ก์จ ํ์ต์ ์๋ ๋์ผ ์ ์์.
๋ ผ๋ฌธ ๋ด์ฉ์ ์ด๋์ ๋ ์ดํด๊ฐ ๊ฐ๋๋ฐ ์์๋ค์ด ์ด๋ ต๋ค..
'AI > ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (0) | 2024.05.21 |
---|---|
Wasserstein GAN : arXiv 2017 | ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ (0) | 2024.03.03 |
Pix2Pix : CVPR 2017 (0) | 2024.02.07 |
DCGAN : ICLR 2016 (0) | 2024.01.28 |
- Total
- Today
- Yesterday
- ์คํ ์ด๋ธ๋ํจ์
- WGAN
- ๊ธฐ์ ์ปจํผ๋ฐ์ค
- ํ๋ก๊ทธ๋๋จธ์ค
- HyperCLOVA
- AI์ปจํผ๋ฐ์ค
- StableDiffusion
- C์ธ์ด
- ๋ ผ๋ฌธ๋ฆฌ๋ทฐ
- gan
- Aimers
- MYSQL
- lgaimers
- ํ์ด์ฌ์ฝํ
- AIRUSH2023
- ์ฝ๋ฉ๊ณต๋ถ
- CLOVAX
- ํ ํฌ์๋ฐ
- ๋ ผ๋ฌธ์ฝ๊ธฐ
- ๊ตฌ๊ธ์ฝ๋ฉ
- ํ์ด์ฌ
- ์ฝ๋ฉ์๋ฌ
- ์ฝํ ์ค๋น
- dreambooth
- AIRUSH
- SKTECHSUMMIT
- DALLE
- ๋๋ฆผ๋ถ์ค
- SQL
- ์ฝํ
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |