ํ‹ฐ์Šคํ† ๋ฆฌ ๋ทฐ

Ian Goodfellow$(.et al)$

Abstract

์ ๋Œ€์  ํ”„๋กœ์„ธ์Šค๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ๋ชจ๋ธ์„ ์ถ”์ •ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•œ๋‹ค.
์ƒ์„ฑ๋ชจ๋ธ G์™€ ํŒ๋ณ„๋ชจ๋ธ D ๋‘๊ฐ€์ง€ ๋ชจ๋ธ์„ ๋™์‹œ์— ํ›ˆ๋ จํ•œ๋‹ค.

GAN?

GAN์€ ๋‘ ๊ฐœ์˜ ๋‹ค๋ฅธ ์‹ ๊ฒฝ๋ง ๊ฐ„์˜ ์ ๋Œ€์ ์ธ ๊ด€๊ณ„๋กœ ๋Œ€๋ฆฝ(Adversarial)ํ•˜๋ฉฐ ์„œ๋กœ์˜ ์„ฑ๋Šฅ์„ ์ ์ฐจ ๊ฐœ์„ ํ•ด ๋‚˜๊ฐ€๋Š” ๊ฒƒ

  • ์ƒ์„ฑ ๋ชจ๋ธ G : ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ชจ๋ธ
  • ํŒ๋ณ„ ๋ชจ๋ธ D : ์ด๋ฏธ์ง€๋ฅผ ์‹ค์ œ(training data) ๋˜๋Š” ๊ฐ€์งœ(generated data)์ธ์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ชจ๋ธ
    Generator๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ํ•™์Šตํ•˜์—ฌ, ์ž„์˜์˜ ๋…ธ์ด์ฆˆ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ์‹ ๊ฒฝ๋ง์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•จ.

Introduction

๋”ฅ๋Ÿฌ๋‹์˜ ๊ฐ€์žฅ ๋‘๋“œ๋Ÿฌ์ง„ ์„ฑ๊ณต์€ high-dimensional, rich sensory input์„ class label์— ๋„ฃ๋Š” ํŒ๋ณ„ ๋ชจ๋ธ๊ณผ ๊ด€๋ จ์ด ์žˆ๋Š”๋ฐ, ์ด๊ฒƒ์€ backpropagation๊ณผ dropout algorithms๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๋‹ค.
Deep generative model์€ ์ตœ๋Œ€ ๊ฐ€๋Šฅ์„ฑ ์ถ”์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋งŽ์€ ํ™•๋ฅ  ๊ณ„์‚ฐ์„ ๊ทผ์‚ฌํ™”ํ•˜๊ธฐ ์–ด๋ ต๊ณ , ์ƒ์„ฑ์ ์ธ ํ™˜๊ฒฝ์—์„œ linear unit์˜ ์ด์ ์„ ํ™œ์šฉํ•˜๊ธฐ๋„ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์— ์˜ํ–ฅ์ด ์ ๋‹ค.

์ด๋Ÿฌํ•œ ์–ด๋ ค์›€์„ ํ”ผํ•˜๋Š” a new generative model estimation procedure์„ ์ œ์•ˆํ•œ๋‹ค.

adversarial nets framework์—์„œ generative model(์œ„์กฐ์ž)์€ discriminative model(๊ฒฝ์ฐฐ)๊ณผ ๋Œ€๋ฆฝํ•˜๊ณ , ์ด ๊ฒฝ์Ÿ์€ ์œ„์กฐํ’ˆ์ด ์ง„ํ’ˆ๊ณผ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์—†์–ด์งˆ ๋•Œ๊นŒ์ง€ ๋‘ ๋ชจ๋ธ์ด ๋ฐฉ๋ฒ•์„ ๊ฐœ์„ ํ•˜๋„๋ก ์ง„ํ–‰๋œ๋‹ค.

์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ํŠน์ • ํ›ˆ๋ จ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฐ์ถœํ•  ์ˆ˜ ์žˆ๊ณ ,

๋ณธ ๋…ผ๋ฌธ์—์„œ ์ƒ์„ฑ๋ชจ๋ธ์ด ๋‹ค์ธตํผ์…‰ํŠธ๋ก ์— ๋žœ๋ค๋…ธ์ด์ฆˆ๋ฅผ ํ†ต๊ณผ์‹œ์ผœ ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•˜๊ณ  ํŒ๋ณ„๋ชจ๋ธ๋„ ๋‹ค์ธตํผ์…‰ํŠธ๋ก ์ด๋‹ค.

"Adversarial net"์ด๋ผ๊ณ  ํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์—ญ์ „ํŒŒ์™€ dropout์•Œ๊ณ ๋ฆฌ์ฆ˜๋งŒ ์‚ฌ์šฉํ•ด์„œ ๋‘ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ฌ ์ˆ˜ ์žˆ๊ณ , ์ˆœ๋ฐฉํ–ฅ์ „ํŒŒ(forward propagation)๋งŒ ์‚ฌ์šฉํ•ด์„œ ์ƒ์„ฑ๋ชจ๋ธ์˜ ์ƒ˜ํ”Œ์„ ํ›ˆ๋ จ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

Related Work

์—ฌ๋Ÿฌ ๊ฐœ์ธต์˜ ์ž ์žฌ ๋ณ€์ˆ˜๊ฐ€ ์žˆ๋Š” ๋งŽ์€ ์ƒ์„ฑ ๋ชจ๋ธ์—์„œ๋Š” ๋‹ค๋ฃจ๊ธฐ์‰ฌ์šด ๋น„์ •๊ทœํ™”๋œ ํ™•๋ฅ  ๋ฐ€๋„๋ฅผ ๋„์ถœํ•˜๋Š” ๊ฒƒ ์กฐ์ฐจ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค.

NCE์—์„œ๋Š” ๋ณธ ์—ฐ๊ตฌ์™€ ๊ฐ™์ด ์ƒ์„ฑ ๋ชจ๋ธ์„ ์ ํ•ฉํ•˜๊ฒŒ ํ•˜๊ธฐ์œ„ํ•ด ํŒ๋ณ„ ํ›ˆ๋ จ ๊ธฐ์ค€์„ ์‚ฌ์šฉํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ƒ์„ฑ๋ชจ๋ธ์„ ๋ณ„๋„์˜ ํŒ๋ณ„๋ชจ๋ธ์— ๋งž์ถ”๊ธฐ๋ณด๋‹ค๋Š” ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ์ •๋œ ๋…ธ์ด์ฆˆ๋ถ„ํฌ์—์„œ ํ‘œ๋ณธ์„ ํŒ๋ณ„ํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋œ๋‹ค.

๋˜ํ•œ ๊ณ ์ •๋œ ๋…ธ์ด์ฆˆ ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ์ด ์ •ํ™•ํ•œ ๋ถ„ํฌ๋ฅผ ํ•™์Šตํ•œ ํ›„, ํ•™์Šต ์†๋„๊ฐ€ ๊ธ‰๊ฒฉํžˆ ๋Š๋ ค์ง„๋‹ค.

generative stochastic network(GSN)๋Š” ์ผ๋ฐ˜ํ™”๋œ ๋…ธ์ด์ฆˆ ์ œ๊ฑฐ ์ž๋™ ์ธ์ฝ”๋”๋ฅผ ํ™•์žฅํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค.

์ด๊ฒƒ์€ Markov chain์„ ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๊ณ„์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ํ•™์Šตํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ adversarial nets์€ ๋งˆ๋ฅด์ฝ”ํ”„ ์ฒด์ธ์ด ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค.

Markov chain

๋งˆ๋ฅด์ฝ”ํ”„ ์„ฑ์งˆ์„ ๊ฐ€์ง„ ์ด์‚ฐ์‹œ๊ฐ„ ํ™•๋ฅ ๊ณผ์ •์ด๋‹ค.

๋งˆ์ฝ”ํ”„ ํŠน์„ฑ์€ ๊ณผ๊ฑฐ ์ƒํƒœ๋“ค๊ณผ ํ˜„์žฌ ์ƒํƒœ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋ฏธ๋ž˜ ์ƒํƒœ๋Š” ๊ณผ๊ฑฐ ์ƒํƒœ์™€๋Š” ๋…๋ฆฝ์ ์œผ๋กœ ํ˜„์žฌ ์ƒํƒœ์— ์˜ํ•ด์„œ๋งŒ ๊ฒฐ์ •๋œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.
๋‹ค๋ฅธ ๋ง๋กœ ํ‘œํ˜„ํ•˜๋ฉด, ๊ณผ๊ฑฐ์™€ ํ˜„์žฌ ์ƒํƒœ ๋ชจ๋‘๋ฅผ ๊ณ ๋ คํ–ˆ์„ ๋•Œ ๋ฏธ๋ž˜ ์ƒํƒœ๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ๊ณผ ํ˜„์žฌ ์ƒํƒœ๋งŒ์„ ๊ณ ๋ คํ–ˆ์„ ๋•Œ ๋ฏธ๋ž˜ ์ƒํƒœ๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์ด ๋™์ผํ•˜๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

P[st+1|st]=P[st+1|s1,โ‹ฏ,st]

Adversarial nets

Generative model G๋Š” ์šฐ๋ฆฌ๊ฐ€ ๊ฐ€์ง€๊ณ ์žˆ๋Š” data x์˜ distribution์„ ์•Œ์•„๋‚ด๋ ค๊ณ  ๋…ธ๋ ฅํ•œ๋‹ค.

๋งŒ์•ฝ G๊ฐ€ ์ •ํ™•ํžˆ data distribution์„ ๋ชจ์‚ฌํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด, ๊ทธ sample์€ ์™„๋ฒฝํžˆ data์™€ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์—†๋‹ค.

์ด๋Ÿฌํ•œ ์ด๋ฏธ์ง€ ๋ฐ์ดํ„ฐ๋Š” ๋‹ค์ฐจ์› ํŠน์ง• ๊ณต๊ฐ„์˜ ํ•œ ์ ์œผ๋กœ ํ‘œํ˜„ ๋จ.

์–ผ๊ตด ์ด๋ฏธ์ง€๋„ ํ†ต๊ณ„์ ์ธ data distribution์ด ์žˆ๊ณ , ์ด๋ฅผ ์ˆ˜์น˜์ ์œผ๋กœ๋„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Œ.

๋‹ค์–‘ํ•œ ํŠน์ง•๋“ค์ด ๊ฐ๊ฐ ํ™•๋ฅ  ๋ณ€์ˆ˜๊ฐ€ ๋˜๋Š” ๋ถ„ํฌ๋ฅผ "๋‹ค๋ณ€์ˆ˜ ํ™•๋ฅ ๋ถ„ํฌ"๋ผ๊ณ  ํ•จ.

Discriminator model D๋Š” ํ˜„์žฌ ์ž๊ธฐ๊ฐ€ ๋ณด๊ณ  ์žˆ๋Š” sample์ด training data์—์„œ ์˜จ ๊ฒƒ(์ง„์งœ)์ธ ์ง€ ํ˜น์€ G๋กœ๋ถ€ํ„ฐ ๋งŒ๋“ค์–ด์ง„ ๊ฒƒ์ธ ์ง€๋ฅผ ๊ตฌ๋ณ„ํ•˜์—ฌ ๊ฐ๊ฐ์˜ ๊ฒฝ์šฐ์— ๋Œ€ํ•œ ํ™•๋ฅ ์„ Estimateํ•œ๋‹ค.

์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด D๋Š” data๋กœ๋ถ€ํ„ฐ ๋ฝ‘์€ sample x๋Š” D(x)=1 ์ด ๋˜๊ณ ,

G์— ์ž„์˜์˜ noise distribution์œผ๋กœ๋ถ€ํ„ฐ ๋ฝ‘์€ input ๊ฐ’์ธ z๋ฅผ ๋„ฃ๊ณ  ๋งŒ๋“ค์–ด์ง„ sample์— ๋Œ€ํ•ด์„œ๋Š” D(G(z))=0 ๊ฐ€ ๋˜๋„๋ก ํ›ˆ๋ จ์„ ํ•ด์•ผํ•œ๋‹ค.

์ฆ‰ D๋Š” ์‹ค์ˆ˜ํ•  ํ™•๋ฅ ์„ ๋‚ฎ์ถ”๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ (min), G๋Š” D๊ฐ€ ์‹ค์ˆ˜๋ฅผ ํ•˜๋„๋ก(max)ํ•˜๋Š”๋ฐ

์ด๋ฅผ "minimax two-player game or minimax problem"์ด๋ผ๊ณ  ํ•œ๋‹ค.

G์™€ D์˜ minmax ๊ฒฝ์Ÿ์„ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„ํ•ด๋ณด๋ฉด, (binary cross-entropy ํ™•๋ฅ )

์œ„์™€ ๊ฐ™์ด ๋œ๋‹ค.

 

* ์ตœ๋Œ€๊ฐ’ :

D์˜ sample x๊ฐ€ ์‹ค์ œ data distribution(train data)์—์„œ ๋‚˜์˜จ ๊ฒƒ์ด๋ผ๋ฉด,

D(x) = 1 ์ด๊ณ , ์ฒซ๋ฒˆ์งธ term์—์„œ log๊ฐ’์ด ์‚ฌ๋ผ์ง„๋‹ค.

G(z)๊ฐ€ ์ƒ์„ฑํ•œ ๊ฒƒ์ด๋ผ๋ฉด D(G(z)) = 0์ด๋ฏ€๋กœ ๋‘๋ฒˆ์งธ term ์—ญ์‹œ 0์ด ๋˜์–ด ์‚ฌ๋ผ์ง„๋‹ค.

=> ์ด ๋•Œ๊ฐ€ D์˜ ์ž…์žฅ์—์„œ V์˜ ์ตœ๋Œ€๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ์Œ.

* ์ตœ์†Ÿ๊ฐ’: (G์˜ ์ž…์žฅ)

D๊ฐ€ ๊ตฌ๋ถ„์„ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ D(G(z)) = 1

์ง„์งœ๋ฅผ 0, ๊ฐ€์งœ๋ฅผ 1๋กœ ํŒ๋ณ„ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ "์ตœ์†Œ"

log ์•ˆ์˜ D๊ฐ’์ด 0์ด ๋˜์–ด V ๊ฐ’์ด -∞ ๋กœ ๊ฐ„๋‹ค.

GAN ํ•™์Šต ๊ณผ์ •

- ๊ฒ€์€ ์ ์„  : data generating distribution (์‹ค์ œ ๋ฐ์ดํ„ฐ๋ถ„ํฌ)

- ํŒŒ๋ž€ ์ ์„ : discriminator diatribution (๋ถ„๋ฅ˜ ๋ถ„ํฌ) -> ํ•™์Šต์„ ๋ฐ˜๋ณตํ•˜๋‹ค๋ณด๋ฉด ๊ฐ€์žฅ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์–ด๋ ค์šด ๊ตฌ๋ถ„ ํ™•๋ฅ ์ธ 0.5 ์ƒํƒœ๊ฐ€ ๋จ

- ๋…น์ƒ‰ ์„  : generative distribution (๊ฐ€์งœ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ)

 

(a) ์ฒ˜์Œ ์ƒํƒœ์—๋Š” ๊ฐ€ ์™€ ์ „ํ˜€ ๋‹ค๋ฅด๊ฒŒ ์ƒ๊ธด ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๊ณ ,

(b) D๊ฐ€ ๋‘ distribution์„ ๊ตฌ๋ณ„ํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต์„ ํ•˜๋ฉด, ์ž˜ ๊ตฌ๋ณ„ํ•˜๋Š” distribution์ด ๋งŒ๋“ค์–ด์ง„๋‹ค.

(c) G๊ฐ€ ํ˜„์žฌ D๊ฐ€ ๊ตฌ๋ณ„ํ•˜๊ธฐ ์–ด๋ ค์šด ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต์„ ํ•˜๋ฉด, ์ข€ ๋” ๊ฐ€ ์™€ ๊ฐ€๊นŒ์›Œ์ง€๊ฒŒ ๋œ๋‹ค.

(d) ํ•™์Šต์„ ๋ฐ˜๋ณตํ•˜๋‹ค ๋ณด๋ฉด ๊ฒฐ๊ตญ์—๋Š” ๊ฐ€ ๋˜์–ด ๊ฐ€ ๋‘˜์„ ๊ตฌ๋ถ„ ๋ชปํ•˜๋Š”  ์ƒํƒœ๊ฐ€ ๋œ๋‹ค.

 

Theoretical Results

์„น์…˜ 4.1์—์„œ ์ด minmax game์ด p_g=p_data์— ๋Œ€ํ•œ global optimum์ž„์„ ๋ณด์—ฌ์คŒ

์„น์…˜ 4.2์—์„œ Algorithm 1์ด value function V(G,D)๋ฅผ ์ตœ์ ํ™”ํ•˜์—ฌ ์›ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป๋Š”๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค„ ๊ฒƒ

 

Algorithm 1

์ ๋Œ€์‹ ๊ฒฝ๋ง์˜ ํ›ˆ๋ จ์„ ์œ„ํ•œ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•, ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ k๋Š” ๊ตฌ๋ณ„๋ชจ๋ธ์— ์ ์šฉํ•˜๊ธฐ ์œ„ํ•œ ์Šคํ…์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ์‹คํ—˜์—์„œ๋Š” k =1 ์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค.

1. noise prior p_g(z) ๋กœ๋ถ€ํ„ฐ noise ์‹œํ‚จ m๊ฐœ์˜ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ {z(1),...,z(m)} ์ƒ˜ํ”Œ์„ ๋งŒ๋“ ๋‹ค.

2. ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๋ถ„ํฌ p_data(x) ๋กœ๋ถ€ํ„ฐ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ m๊ฐœ์˜ ์ƒ˜ํ”Œ {x(1),...,x(m)}์„ ํ‰๊ฐ€ํ•œ๋‹ค.

3. ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ์ƒ์Šน๋ฒ•์„ ์ด์šฉํ•˜์—ฌ D๋ฅผ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.

 

k๋ฒˆ์˜ ์Šคํ…์ดํ›„ 

k-1. noise prior p_g(z) ๋กœ๋ถ€ํ„ฐ noise ์‹œํ‚จ m๊ฐœ์˜ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ {z(1),...,z(m)} ์ƒ˜ํ”Œ์„ ๋งŒ๋“ ๋‹ค.

k-2. ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์„ ์ด์šฉํ•˜์—ฌ G๋ฅผ ์—…๋ฐ์ดํŠธํ•œ๋‹ค.

 

์ด ์‹คํ—˜์€ momentum์„ ์ด์šฉํ•œ ์˜ตํ‹ฐ๋งˆ์ด์ €๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.

 

Experiments

  • MNIST, Toronto Face Database(TFD), CIFAR-10์— ๋Œ€ํ•ด ํ•™์Šต ์ง„ํ–‰
  • G๋Š” rectifier linear, sigmoid ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ํ˜ผํ•ฉํ•˜์—ฌ ์‚ฌ์šฉ, D๋Š” maxout activation ์‚ฌ์šฉ
  • D๋ฅผ ํ•™์Šต์‹œํ‚ฌ ๋•Œ Dropout์‚ฌ์šฉ
  • ์ด ์‹คํ—˜์—์„œ๋Š” G๋กœ ์ƒ์„ฑ๋œ sample์— Gaussian Parzen window๋งž์ถ”๊ณ , ํ•ด๋‹น ๋ถ„ํฌ์— ๋”ฐ๋ฅธ log-likelihood๋ฅผ ์•Œ๋ ค์คŒ์œผ๋กœ์จ P_g์— ๋”ฐ๋ฅธ test set data ํ™•๋ฅ ์„ ์ถ”์ •

๋…ธ๋ž€์ƒ‰ ๋ฐ•์Šค๊ฐ€ Gernerated sample์ด๋‹ค.

 

Advantages and disadvantages

์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์žฅ๋‹จ์ ์ด ์กด์žฌํ•จ.

 

1) ๋‹จ์ 

  • pg(x)๊ฐ€ ๋ช…์‹œ์ ์œผ๋กœ ์กด์žฌํ•˜์ง€ ์•Š์Œ.
  • D์™€ G๊ฐ€ ๊ท ํ˜•์„ ์ž˜ ๋งž์ถฐ ๋™๊ธฐํ™” ๋˜์–ด์•ผํ•จ(Helvetica scenario) 

2) ์žฅ์ 

  • ํ•™์Šต์ค‘ ์–ด๋– ํ•œ inference๊ฐ€ ํ•„์š” ์—†๋‹ค.
  • ๋‹ค์–‘ํ•œ ํ•จ์ˆ˜๋“ค์ด ์ ๋Œ€์ ์‹ ๊ฒฝ๋ง ํ”„๋ ˆ์ž„์›Œํฌ์— ์ ‘๋ชฉ๋  ์ˆ˜ ์žˆ์Œ
  • ๋งˆํฌ์ฝ”๋ธŒ ์ฒด์ธ์„ ์“ธ ๋•Œ ๋ณด๋‹ค ๋” ์„ ๋ช…ํ•œ ์ด๋ฏธ์ง€๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Œ
  • ๋งˆํฌ์ฝ”๋ธŒ ์ฒด์ธ์ด ์ „ํ˜€ ํ•„์š”๊ฐ€ ์—†๊ณ  ๊ฐ€์ค‘์น˜๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ์—ญ์ „ํŒŒ ๋งŒ์ด ์‚ฌ์šฉ๋จ. 

 

Conclusions and future work

  • G,D ์–‘์ชฝ์— ์ž…๋ ฅ์œผ๋กœ์„œ c๋ฅผ ๋”ํ•˜๋ฉด conditional generative model๋กœ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ (CGAN) = p(x|c)
     
  • Learned approximate inference๋Š” ์ฃผ์–ด์ง„ x๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด ๋ณด์กฐ ๋„คํŠธ์›Œํฌ๋ฅผ ํ›ˆ๋ จํ•จ์œผ๋กœ์จ ์ˆ˜ํ–‰๋  ์ˆ˜ ์žˆ๋‹ค. ์ด๊ฒƒ์€ wake-sleep ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ํ•™์Šต๋œ inference net๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ G๊ฐ€ ํ•™์Šต์„ ๋งˆ์นœ ํ›„ ๊ณ ์ •๋œ G์— ๋Œ€ํ•ด inference net์ด ํ›ˆ๋ จ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค.
  • parameters๋ฅผ ๊ณต์œ ํ•˜๋Š” conditionals model๋ฅผ ํ•™์Šตํ•จ์œผ๋กœ์จ ๋‹ค๋ฅธ conditionals models์„ ๊ทผ์‚ฌ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ๋‹ค. ํŠนํžˆ MP-DBM์˜ stochastic extension์„ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ์ ๋Œ€์‹ ๊ฒฝ๋ง์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.
  • Semi-supervised learning : ์ œํ•œ๋œ ๋ ˆ์ด๋ธ”์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์„ ๋•Œ, classifiers์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.
  • ํšจ์œจ์„ฑ ๊ฐœ์„ : ํ•™์Šต ์ค‘์— G,D๋ฅผ ์กฐ์ •ํ•˜๋Š” ๋” ๋‚˜์€ ๋ฐฉ๋ฒ•์„ ์ฐพ๊ฑฐ๋‚˜ ํ•™์Šตํ•˜๋Š” ๋™์•ˆ sample z์— ๋Œ€ํ•œ ๋” ๋‚˜์€ ๋ถ„ํฌ๋ฅผ ๊ฒฐ์ •ํ•จ์œผ๋กœ์จ ํ•™์Šต์˜ ์†๋„ ๋†’์ผ ์ˆ˜ ์žˆ์Œ.

๋…ผ๋ฌธ ๋‚ด์šฉ์€ ์–ด๋Š์ •๋„ ์ดํ•ด๊ฐ€ ๊ฐ€๋Š”๋ฐ ์ˆ˜์‹๋“ค์ด ์–ด๋ ต๋‹ค..

๋ฐ˜์‘ํ˜•