ํฐ์คํ ๋ฆฌ ๋ทฐ
Alec Radford & Luke Metz
DCGAN : UNSUPERVISED REPRESENTATION LEARNINGWITH DEEP CONVOLUTIONALGENERATIVE ADVERSARIAL NETWORKS
INTRODUCTION
GANs have been known to be unstable to train, often resulting in generators that produce nonsensical outputs.
CNN์ ํ์ฉํ ๋น์ง๋ํ์ต์ผ๋ก ์ง๋ํ์ต๊ณผ ๋น์ง๋ํ์ต์ ์ฐจ์ด๋ฅผ ์ค์ธ๋ค.
- CNN์ ํ์ฉํ์ฌ ์์ ์ ์ธ train์ ๊ฐ๋ฅํ๊ฒ ํ์ผ๋ฉฐ ์ด๋ฅผ DCGAN์ด๋ผ๊ณ ํ๋ค.
- ํ๋ณ๊ธฐ๋ฅผ ์ด๋ฏธ์ง ๋ถ๋ฅ๊ธฐ ์์ ์ผ๋ก ์ฌ์ฉํ์๊ณ , ๋ค๋ฅธ ๋น์ง๋ํ์ต ์๊ณ ๋ฆฌ์ฆ๋ค์ ๊ฒฝ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
- DCGAN์ ์ํด ํ์ต๋ ํํฐ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ , ํน์ ํํฐ๊ฐ ํน์ ํ objects๋ฅผ ์์ฑํ๊ฒ ํ์ตํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
- DCGAN์ ์์ฑ์๊ฐ ์์ฑ๋ ์ํ๋ค์ ์ ์กฐ์ ํ๋๋ก ํ๋ ๋ฐฑํฐ์ ์ฐ์ ํน์ฑ์ ๊ฐ์ง๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
RELATED WORK
Generative Adversarial Networks (Goodfellow et al., 2014) generated images suffering from being noisy and incomprehensible.
GAN์ ๋ฌธ์ ์
- ํ๋ จํ ๋ ์์ ์ฑ์ด ๋จ์ด์ง.
- ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ด๋ ค์.
APPROACH AND MODEL ARCHITECTURE
- CNN์ ์ฌ์ฉํ์ฌ GAN์ scale up ํ์ฌ ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ธ๋งํ๋ ค๋ ์๋๋ค์ ์ด๋ฏธ ์์์ง๋ง, ์ฑ๊ณต์ ์ด์ง ๋ชปํ๋ค. ex) LAPGAN
- ๊ด๋ฒ์ํ ๋ชจ๋ธ ํ์ ํ, ๋ค์ํ ๋ฐ์ดํฐ์ ์์ ์์ ์ ์ธ ํ์ต๊ณผ ๋ ๋์ ํด์๋, ๊น์ ์์ฑ ๋ชจ๋ธ์ ํ์ตํ ์ ์๋ ๊ตฌ์กฐ๋ฅผ ํ์ธํ๋ค.
- ์ฐ๋ฆฌ์ ์ ๊ทผ์ ํต์ฌ์ ์ต๊ทผ CNN ๊ตฌ์กฐ์ 3๊ฐ์ง ๋ณํ๋ฅผ ์์ ํ๊ณ ์ฑํํ ๊ฒ์ด๋ค.
1. Max pooling to Strided Convolution
Spatial Pooling์ down sample์ ๋ํ์ ์ธ ๊ธฐ๋ฒ, ๋ฐ๋ก Max pooling layer๋ฅผ ๋ฃ์ด spatial resolution์ ๋ฎ์ถฐ์ฃผ๋ ์์ ์ ์งํ.
Spatial downsampling์ ํ์ตํ๊ฒ ํ๋ค. ์ด ์ ๊ทผ์ ๋ฃ์ด Generator๋ Spatial downsampling ๊ณผ์ ์ ํจ๊ป ํ์ต์ํฌ ์ ์๊ฒ ํ๊ณ , Discriminator์์๋ spatial upsampling์ด ๊ฐ๋ฅํ๊ฒ ํ๋ค.
2. FC layer ์ ๊ฑฐ
convolution feature์ top์ fully connected layer๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ด๋ค. ์์๋ก ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ์ ํ์ฉ๋ global average pooling์ด ์๋ค. ์ด๊ฒ์ ๋ชจ๋ธ ์์ ์ฑ์ ํฅ์์์ผฐ์ง๋ง, ์๋ ด ์๋๋ฅผ ์์์์ผฐ๋ค. ์ค๊ฐ ์์ญ์ ์ ์๋ํจ.
๋ง์ง๋ง์ D์ output๊ฒฐ๊ณผ๋ฅผ ํ๋จํ๋ softmax layer์ G์์ z๋ฅผ input์ผ๋ก ๋ฃ๋ ์ฒซ ๋ฒ์งธ layer๋ฅผ ์ ์ธํ๊ณ ๋ชจ๋ FC layers๋ฅผ ์ ๊ฑฐ
3. ๋ฐฐ์น์ ๊ทํ ์ฌ์ฉ
๊ฐ ์ ๋์ ๋ํ ์ ๋ ฅ์ ํ๊ท ๊ณผ ๋จ์ ๋ถ์ฐ์ด 0์ด ๋๋๋ก ์ ๊ทํํ์ฌ ํ์ต์ ์์ ํํ๋ค. ์ด๊ธฐํ ๋ถ๋์ผ๋ก ์ธํด ๋ฐ์ํ๋ ํ๋ จ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ฌ์ธต ๋ชจ๋ธ์์ gradient flow์ ๋๋๋ค. ์ด๋ deep generator๊ฐ ํ์ต์ ์์ํ๋๋ก ํ๋ ๋ฐ ์ค์ํ ๊ฒ์ผ๋ก ์ ์ฆ๋์์ผ๋ฉฐ, generator๊ฐ GAN์์ ํํ ๊ด์ฐฐ๋๋ ์คํจ ๋ชจ๋์ธ single point๋ก ๋ถ๊ดดํ๋ ๊ฒ์ ๋ฐฉ์งํ๋ค.
๋ชจ๋ layer์ batchnorm์ ์ง์ ์ ์ฉํ๋ฉด ์ํ์ ์ง๋๊ณผ ๋ชจ๋ธ์ ๋ถ์์ ์ฑ์ด ๋ฐ์ํจ.
-> generator output layer์ discriminator input layer์ ์ ์ฉํ์ง ์์์ผ๋ก ๋ฐฉ์งํ ์ ์์.
GAN๋ ผ๋ฌธ์์ maxout ํ์ฑํ ์ฌ์ฉ VS discriminator์์, ํนํ ๊ณ ํด์๋๋ชจ๋ธ์์ leaky rectified ํ์ฑํ ์ฌ์ฉ
์์ ์ ์ธ Deep Convolution GANs๋ฅผ ์ํ ๊ตฌ์กฐ ๊ฐ์ด๋
1. strided convolutions(ํ๋ณ์), fractional-strided convolutions(์์ฑ์)๋ก ๋์ฒด
2. ์์ฑ๊ธฐ์ ํ๋ณ๊ธฐ ๋ชจ๋ batchnorm ์ฌ์ฉ (Generator์ output layer์ Discriminator์ input layer ์ ์ธ)
3. ๋ ๊น์ ๊ตฌ์กฐ๋ฅผ ์ํด fully connected hidden layers ์ ๊ฑฐ
4. Generator์ output์๋ Tanh๋ฅผ ์ฌ์ฉํ๊ณ , ๋๋จธ์ง๋ ReLU๋ฅผ ์ฌ์ฉ
5. ๋ชจ๋ layers์ ๋ํด Discriminator(ํ๋ณ์)์์ LeakyReLU ํ์ฑํ ์ฌ์ฉ
DETAILS OF ADVERSARIAL TRAINING
input์ผ๋ก 100 x 1์ noise vector๋ฅผ ์ฌ์ฉํ์ฌ Project and reshape๋ผ๋ layer๋ฅผ ํตํด 1024 x 4 x 4๋ก ํ์ฅ์ด ๋๋ค.
๊ทธ๋ฆฌ๊ณ convolution layer๋ก ๋์ด๊ฐ fractional-strided convolution layer๋ฅผ ๊ฑฐ์น๋ฉฐ 64 x 64 pixel์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.
ํ๋ณ์๋ input์ผ๋ก 64 x 64 ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ฐ์ ๋ง์ง๋ง sigmoid๋ก 1 or 0์ 1์ฐจ์ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํ๋ค.
ํ์ฑํ ํจ์๋ LeakyReLU๋ฅผ ์ฌ์ฉํ๋๋ฐ, ReLU์ ๋ค๋ฅธ ์ ์ LeakyReLU๋ ์์์์ญ์์ ์ฝ๊ฐ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ๋ ๊ฐ์ ์ถ๋ ฅํ๋ค๋ ์ ์ด ๋ค๋ฅด๋ค.
DCGAN์ 3๊ฐ์ ๋ฐ์ดํฐ์ : LSUN, ์ด๋ฏธ์ง๋ท, ์๋กญ๊ฒ ์กฐํฉ๋ ์ผ๊ตด ๋ฐ์ดํฐ์ ์ ๋ํด ํ์ตํ๋ค.
- ํ์ต ์ด๋ฏธ์ง์๋ ์ ์ฒ๋ฆฌ๊ฐ ์ ์ฉ๋์ง ์์๊ณ , tanh activation ํจ์์ [-1, 1]์ ๋ฒ์๋ก ์ค์ผ์ผ๋ง
- ๋ชจ๋ ๋ชจ๋ธ๋ค์ SGD๋ก ๋ฏธ๋ ๋ฐฐ์น ์ฌ์ด์ฆ 128๋ก ํ์ต.
- ๋ชจ๋ ๊ฐ์ค์น๋ค์ zero-centered ์ ๊ท ๋ถํฌ๋ก ํ์ค ํธ์ฐจ 0.02๋ก ์ด๊ธฐํ.
- LeakyReLU์์ ๋ชจ๋ ๋ชจ๋ธ์ leak์ slope๋ 0.2๋ก ์ค์ .
- ์ด์ ์ GAN ์ฐ๊ตฌ๋ค์ ํ์ต์ ๊ฐ์ํ๊ธฐ ์ํด์ ๋ชจ๋ฉํ ์ ์ฌ์ฉ VS ์ฐ๋ฆฌ๋ ์กฐ์ ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํด์ Adam ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉ
- learning rate 0.0002๋ฅผ ์ ์
- ์ถ๊ฐ์ ์ผ๋ก ๋ชจ๋ฉํ beta1์ 0.9๋ก ๋์์ ๋ training oscillation๊ณผ ๋ถ์์ ์ฑ์ด ๋ฐ๊ฒฌ, 0.5๋ก ๋์์ ๋ ํ์ต ์์ ์ ๋์.
4.1 LSUN
- ์นจ์ค์ฌ์ง
- 3๋ฐฑ๋ง์ฅ ์ด์์ ํ์ต ์ํ
- ์ด๋ฏธ์ง ์ค๋ณต ์ ๊ฑฐ ์์
- 100๊ฐ ์ค 1๊ฐ ๋ฏธ๋ง์ false positive -> ๋์ ์ ํ๋
- ๋ถ๋ถ๋ถ๋ถ noise๊ฐ ๋ฐ์ํด์ underfitting๋จ.
4.2 Faces
OpenCV ์ผ๊ตด ๊ฒ์ถ์ ์ฌ์ฉํด์ ๊ณ ํด์๋ ์ด๋ฏธ์ง ๊ฒ์ถ
4.3 IMAGENET
EMPIRICAL VALIDATION OF DCGANS CAPABILITIES
5.1 Classifying CIFAR-10 using GANs as feature extractor
- ์ฑ๋ฅ
INVESTIGATING AND VISUALIZING THE INTERNALS OF THE NETWORKS
6.1 Walking in the Latent Space
- G์ input z์ ๊ณต๊ฐ์ธ latent Space์์ ์์ ๋ก ์ด์ง ์ด๋ํ๋ค ํ๋๋ผ๋ ๊ธ์์ค๋ฌ์ด ๋ณํ๊ฐ ์ผ์ด๋์ง ์๊ณ , ๋ถ๋๋ฌ์ด ๋ณํ๋ฅผ ๋ณด์ฌ์ค์ผ ํ๋ค.
- ๊ฐ ์ค ๋ง๋ค z(latent vector)์ ๊ฐ์ ์กฐ๊ธ์ฉ ๋ฐ๊ฟ๊ฐ๋ฉด์ ๋ถ๋๋ฝ๊ฒ ๊ฒฐ๊ณผ๊ฐ ๋ณ๊ฒฝ๋๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
- ํนํ ๋ง์ง๋ง ์ค์ z์ ๊ฐ์ ๋ณํ์์ผ ์ป์ ๊ฒฐ๊ณผ๋ก, ์ผ์ชฝ์ ์๋ ํฐ๋น๊ฐ ์ฐฝ๋ฌธ์ผ๋ก ๋ณํํ ๊ฒ์ ํ์ธํ ์ ์๋ค.
6.2 Visualizing the Discriminator Features
- CNN์ Black Box๋ ์ค๊ฐ์ ์ด๋ค feature map์ด ์ด๋ ํ ์์ฉ์ ํด์ ์ด๋ฐ ๊ฒฐ๊ณผ๊ฐ ๋์ค๋์ง, ์ธ๊ณผ๊ด๊ณ๋ฅผ ๋ช ํํ๊ฒ ์ค๋ช ํ ์ ์๋ ๋ฌธ์ ์ ์ด ์์๋ค. DCGAN์์๋ Discriminator์ ํ์ต์ ์ํจ ๊ฒฐ๊ณผ, ํํฐ์์ ์นจ๋๋ ์ฐฝ๋ฌธ ๊ฐ์ด ์นจ์ค์ ํน์ ๋ถ๋ถ์์ ํ์ฑํ ๋๋ ํํฐ๋ค์ ๋ฐ๊ฒฌํ๋ค. ์ฆ, ๋ค์๋งํ๋ฉด ํํฐ๋ค์ด ์นจ๋์ ์ผ๋ถ๋ถ์ ํ์ตํ ๊ฒ์ ๋ณผ ์ ์์.
6.3 Manipulating the Generator Representation
6.3.1 FORGETTING TO DRAW CERTAIN OBJECTS
- ํ์ต์ด ์ ๋์ด์๋ filter๋ฅผ dropout ์์ผ์ ์ด๋ฏธ์ง์์ ํด๋น filter๊ฐ ๋งก๊ณ ์๋ ๋ถ๋ถ์ ์ ๊ฑฐํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
- ๋ ผ๋ฌธ์์ ์งํํ ์คํ์
1. 150๊ฐ์ sample image์์ 52๊ฐ์ window๋ฅผ ์ฐพ์๋ด bounding box ์ฒ๋ฆฌ๋ฅผ ํ๋ค.
2. ๊ณ ์ฐจ์ feature(high-level feature)์ค window๋ฅผ activateํ๋ feature๋ฅผ ๊ณ ๋ฅธ๋ค.
3. ๊ณ ๋ฅด๋ ๋ฐฉ๋ฒ์ window bounding boxes์์์๋ positiveํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๊ณ , ๋ค๋ฅธ ๋๋ค ์ด๋ฏธ์ง์์๋ negativeํ ๋ฐ์์ ๋ณด์ด๋ ํํฐ๋ฅผ ์ฐพ๋๋ค.
์๋ณธ์ด ์์ค, window ํํฐ๋ฅผ dropout ํ๊ฒ ์๋์ค์ด๋ค. window๊ฐ ์ฌ๋ผ์ง ๊ฒ์ ํ์ธํ ์ ์๋ค.
6.3.2 VECTOR ARITHMETIC ON FACE SAMPLES
- ๋ฒกํฐ์ฐ์ฐ์ DCGAN์์๋ ์ฌ์ฉํ ์ ์์.
- ex) vector(“King”) - vector(“Man”) + vector(“Woman”) ์ ๊ฒฐ๊ณผ๋ ๊ฐ์ฅ ๊ทผ์ ํ ์ด์์ ๋ฒกํฐ์ธ Queen์ ๊ฒฐ๊ณผ๋ฅผ ์ฆ๋ช .
- ๊ฐ ์นดํ ๊ณ ๋ฆฌ ๋ง๋ค ์ธ๊ฐ์ z๋ฅผ ํ๊ท ๋ด์ Z vector๋ฅผ ์์ฑํ๊ณ , ํ๊ท ๊ฐ์ผ๋ก ๊ตฌํ ๊ฐ Z vector๋ค์ ์ฐ์ฐํด์ฃผ๋ฉด ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค.
- ex) ์๊ฒฝ์ ์ด ๋จ์ - ์๊ฒฝ์ ์ ์ด ๋จ์ + ์๊ฒฝ์ ์ ์ด ์ฌ์ = ์๊ฒฝ์ ์ด ์ฌ์
- ํ์ : ์ผ์ชฝ์ ๋ณด๊ณ ์๋ ์ผ๊ตด๊ณผ ์ค๋ฅธ์ชฝ์ ๋ณด๊ณ ์๋ ์ผ๊ตด ๋ฒกํฐ๋ค์ ํ๊ท ์ ๊ณ์ฐ ํ, ๋ ๋ฒกํฐ๋ฅผ ์๋ ์ถ์ interpolateํด์ G์ ๋์ ํ ๊ฒฐ๊ณผ, ํ์ ํ๋ ์ผ๊ตด๋ค์ด ๋์ด.
CONCLUSION AND FUTURE WORK
- ๋ชจ๋ธ ๋ถ์์ ์ฑ collapse ๋ฌธ์
- ์ด ํ๋ ์์ํฌ๋ฅผ ๋น๋์ค, ์ค๋์ค์ ๊ฐ์ ๋ค๋ฅธ ๋๋ฉ์ธ์ ํ์ฅํ๋ ๊ฒ๋ ํฅ๋ฏธ๋ก์ธ ๊ฒ์ด๋ผ ์๊ฐ
'AI > ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (0) | 2024.05.21 |
---|---|
Wasserstein GAN : arXiv 2017 | ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ (0) | 2024.03.03 |
Pix2Pix : CVPR 2017 (0) | 2024.02.07 |
Generative Adversarial Nets : arXive 2014 (0) | 2024.01.15 |
- Total
- Today
- Yesterday
- HyperCLOVA
- SQL
- ์ฝํ ์ค๋น
- AIRUSH
- dreambooth
- ์ฝ๋ฉ์๋ฌ
- ๋ ผ๋ฌธ๋ฆฌ๋ทฐ
- AIRUSH2023
- ๊ธฐ์ ์ปจํผ๋ฐ์ค
- MYSQL
- ์ฝํ
- WGAN
- ์ฝ๋ฉ๊ณต๋ถ
- ํ์ด์ฌ์ฝํ
- Aimers
- gan
- ๋ ผ๋ฌธ์ฝ๊ธฐ
- SKTECHSUMMIT
- ํ์ด์ฌ
- DALLE
- ๋๋ฆผ๋ถ์ค
- ํ ํฌ์๋ฐ
- lgaimers
- ๊ตฌ๊ธ์ฝ๋ฉ
- CLOVAX
- C์ธ์ด
- ์คํ ์ด๋ธ๋ํจ์
- AI์ปจํผ๋ฐ์ค
- ํ๋ก๊ทธ๋๋จธ์ค
- StableDiffusion
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |