ํ‹ฐ์Šคํ† ๋ฆฌ ๋ทฐ

CVPR 2023. [Paper]
Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman
Google Research | Boston University
25 Aug 2022

 

Abstract

Fine-tunning ์ด๋ž€?
๊ธฐ์กด์— ํ•™์Šต๋œ ๋ชจ๋ธ(Pretrained model)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถ”๊ฐ€์ ์œผ๋กœ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹ ํ•™์Šต์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฏธ์„ธ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. Latent Diffusion ๋ชจ๋ธ์—์„œ ํ•™์Šต๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์˜์—ญ์€ ํฌ๊ฒŒ ํ…์ŠคํŠธ ์ธ์ฝ”๋”์™€ U-net ์˜์—ญ์ด ์žˆ์œผ๋ฉฐ, ๋“œ๋ฆผ๋ถ€์Šค๋Š” ๋‘๊ฐ€์ง€ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋‘ ํ•™์Šตํ•œ๋‹ค.

 

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” text-to-image diffusion model์˜ "๊ฐœ์ธํ™”"๋ฅผ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค. ํ”ผ์‚ฌ์ฒด์˜ ์ด๋ฏธ์ง€ ๋ช‡ ๊ฐœ๋งŒ ์ž…๋ ฅ์œผ๋กœ ์ฃผ์–ด์ง€๋ฉด, ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Introduction

์ตœ๊ทผ ๊ฐœ๋ฐœ๋œ ๋Œ€ํ˜• text-to-image ๋ชจ๋ธ์€ ๊ณ ํ’ˆ์งˆ์˜ ๋‹ค์–‘ํ•œ ์ด๋ฏธ์ง€ ํ•ฉ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ์œผ๋กœ์จ ์ „๋ก€ ์—†๋Š” ๊ธฐ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์˜ ์ฃผ์š” ์ด์ ์€ ์ด๋ฏธ์ง€-์บก์…˜ ์Œ์˜ ๋Œ€๊ทœ๋ชจ ์ปฌ๋ ‰์…˜์—์„œ ํ•™์Šตํ•œ ๊ฐ•๋ ฅํ•œ semantic prior์ด๋‹ค.

์ด๋Ÿฌํ•œ ๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ๋ ˆํผ๋Ÿฐ์Šค์—์„œ ํ”ผ์‚ฌ์ฒด์˜ ๋ชจ์–‘์„ ๋ชจ๋ฐฉํ•˜๊ณ  ๋‹ค์–‘ํ•œ ๋งฅ๋ฝ์—์„œ ๋™์ผํ•œ ํ”ผ์‚ฌ์ฒด์˜ ์ƒˆ๋กœ์šด ํ‘œํ˜„์„ ํ•ฉ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•˜๋ฉฐ, ์ด๋Š” ์ถœ๋ ฅ ๋„๋ฉ”์ธ์˜ ํ‘œํ˜„๋ ฅ์ด ์ œํ•œ๋˜์–ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๋˜ํ•œ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์ด language-vision space์— ์žˆ๋Š” ๋ชจ๋ธ๋„ ์ฃผ์–ด์ง„ ๋Œ€์ƒ์˜ ๋ชจ์Šต์„ ์ •ํ™•ํ•˜๊ฒŒ ์žฌ๊ตฌ์„ฑํ•  ์ˆ˜ ์—†๊ณ , ์ด๋ฏธ์ง€ ์ฝ˜ํ…์ธ ์˜ ๋ณ€ํ˜•๋งŒ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. 

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” text-to-image diffusion model์˜ ์‚ฌ์šฉ์ž์˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์š”๊ตฌ ์‚ฌํ•ญ์— ๋งž๊ฒŒ ๋ชจ๋ธ์ด ์กฐ์ •๋˜๋Š”, ์ฆ‰ “๊ฐœ์ธํ™””๋ฅผ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•œ๋‹ค. 

๋ณธ ๋…ผ๋ฌธ์ด ๊ธฐ์—ฌํ•œ ๋ฐ”๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

1. ์ƒˆ๋กœ์šด ๋ฌธ์ œ๋ฅผ ์ •์˜: subject-driven generation(subject์— ๋Œ€ํ•œ ๋ช‡์žฅ์˜ ์‚ฌ์ง„์ด ์ฃผ์–ด์ง€๋ฉด, ๋‹ค์–‘ํ•œ context๋กœ ํ•ฉ์„ฑํ•˜๋˜, ๋™์‹œ์— subject์— ๋Œ€ํ•œ key feature๋ฅผ high fidelity๋กœ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ)

2. ์ƒˆ๋กœ์šด ๊ธฐ๋ฒ•์„ ์ œ์•ˆ: few-shot setting์—์„œ text-to-image diffusion model์„ ๊ธฐ์กด์˜ semantic knowledge๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ fine-tuneํ•˜๋Š” ์ƒˆ๋กœ์šด ๊ธฐ๋ฒ• ์ œ์•ˆ

 

Method

๋ณธ ๋…ผ๋ฌธ์˜ ๋ชฉํ‘œ๋Š” ํ”ผ์‚ฌ์ฒด์˜ ์ด๋ฏธ์ง€ ๋ช‡ ๊ฐœ(์ผ๋ฐ˜์ ์œผ๋กœ 3-5)๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ๋„๋ฉ”์ธ์— ํ”ผ์‚ฌ์ฒด๋ฅผ ์ด์‹ํ•˜์—ฌ ๊ณ ์œ  ์‹๋ณ„์ž๋กœ ํ•ฉ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋†’์€ ๋””ํ…Œ์ผ fidelity๋กœ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ์— ์˜ํ•ด guide๋œ ํ”ผ์‚ฌ์ฒด์˜ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ๋ณธ ๋…ผ๋ฌธ์˜ ๋ชฉํ‘œ์ด๋‹ค. ์ž…๋ ฅ ์ด๋ฏธ์ง€ ์บก์ฒ˜์— ์ œํ•œ์„ ๋‘์ง€ ์•Š์œผ๋ฉฐ ํ”ผ์‚ฌ์ฒด ์ด๋ฏธ์ง€๋Š” ๋‹ค์–‘ํ•œ ์ปจํ…์ŠคํŠธ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค. ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ๊ฐœ์š”๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์œ„ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด, Pretrained Text-to-Image model, ๋ช‡์žฅ์˜ ์ด๋ฏธ์ง€, ๋Œ€์ƒ์— ๋Œ€ํ•œ class ์ด๋ฆ„์ด ์ฃผ์–ด์ง€๊ณ  ์ด๋ฅผ Dreambooth๋ฅผ ํ†ตํ•ด Fine-tuning ํ•˜๋ฉด, unique identifier [V]์— ๋Œ€ํ•œ ํ•™์Šต์ด ๋œ Personalized Text-to-Image model ์ด Output์œผ๋กœ ๋‚˜์˜จ๋‹ค. 

์ฒซ ๋ฒˆ์งธ ์ž‘์—…์€ ํ”ผ์‚ฌ์ฒด ์ธ์Šคํ„ด์Šค๋ฅผ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ๋„๋ฉ”์ธ์— ์ด์‹ํ•˜๊ณ  ํ”ผ์‚ฌ์ฒด๋ฅผ ๊ณ ์œ  ์‹๋ณ„์ž๋กœ ๋ฐ”์ธ๋”ฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ค‘์š”ํ•œ ๋ฌธ์ œ๋Š” ํ”ผ์‚ฌ์ฒด๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ์ž‘์€ ์ด๋ฏธ์ง€๋“ค์„ finetuningํ•˜๋ฉด ์ฃผ์–ด์ง„ ์ด๋ฏธ์ง€์— overfitting๋˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๋˜ํ•œ language drift๋Š” ์–ธ์–ด ๋ชจ๋ธ์—์„œ ํ”ํžˆ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ์ด๋ฉฐ text-to-image diffusion model์—์„œ๋„ ๋‚˜ํƒ€๋‚œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ €์ž๋“ค์€ diffusion model์ด ์ฃผ์ œ์™€ ๋™์ผํ•œ ํด๋ž˜์Šค์˜ ๋‹ค์–‘ํ•œ ์ธ์Šคํ„ด์Šค๋ฅผ ๊ณ„์† ์ƒ์„ฑํ•˜๋„๋ก ํ•˜์—ฌ overfitting์„ ์™„ํ™”ํ•˜๊ณ  language drift๋ฅผ ๋ฐฉ์ง€ํ•˜๋Š” autogenous class-specific prior preservation loss๋ฅผ ์ œ์‹œํ•œ๋‹ค.

๋””ํ…Œ์ผ์˜ ๋ณด์กด์„ ๊ฐ•ํ™”ํ•˜๋ ค๋ฉด ๋ชจ๋ธ์˜ super-resolution ๋ถ€๋ถ„๋„ finetuningํ•ด์•ผ ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ naiveํ•œ ๋ฐฉ์‹์œผ๋กœ ๋Œ€์ƒ ์ธ์Šคํ„ด์Šค๋ฅผ ์ƒ์„ฑํ•˜๋„๋ก finetuning๋œ ๊ฒฝ์šฐ ์ธ์Šคํ„ด์Šค์˜ ์ค‘์š”ํ•œ ๋””ํ…Œ์ผ๋“ค์„ ๋ณต์ œํ•  ์ˆ˜ ์—†๋‹ค. ์ €์ž๋“ค์€ ์ฃผ์ œ์˜ ๋””ํ…Œ์ผ์„ ๋” ์ž˜ ๋ณด์กดํ•˜๊ธฐ ์œ„ํ•ด ์ด๋Ÿฌํ•œ SR ๋ชจ๋“ˆ์„ ํ•™์Šต์‹œํ‚ค๊ณ  ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ๋Š” ํ†ต์ฐฐ๋ ฅ์„ ์ œ๊ณตํ•˜์—ฌ ์žฌ๋งฅ๋ฝํ™”(recontextualization)์—์„œ ์ „๋ก€ ์—†๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์˜€๋‹ค. ์ œ์ž๋“ค์ด ์ œ์•ˆํ•œ ํ•™์Šต ์ ˆ์ฐจ์˜ ์Šค์ผ€์น˜๋Š” ์•„๋ž˜ ๊ทธ๋ฆผ์— ๋‚˜์™€ ์žˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ Imagen ๋ชจ๋ธ์„ ๊ธฐ๋ณธ ๋ชจ๋ธ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

๋“œ๋ฆผ๋ถ€์Šค๋Š” class name์„ ํ†ตํ•˜์—ฌ ๊ธฐ์กด ๋ชจ๋ธ์˜ ๋‚ด์šฉ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์ƒˆ๋กœ์šด ๋‚ด์šฉ์„ ํ•™์Šตํ•˜๋„๋ก ํ•˜์˜€๋‹ค.

ํ•™์Šตํ•˜๊ณ  ์‹ถ์€ ์ด๋ฏธ์ง€์ธ A [v] dog์— ๋Œ€ํ•œ input image๋ฅผ ํ•™์Šตํ•จ๊ณผ ๋™์‹œ์—, ๊ธฐ์กด ๋ชจ๋ธ์„ ์ด์šฉํ•˜์—ฌ ์ถœ๋ ฅํ•œ A dog ๋ผ๋Š” class name์— ๋Œ€ํ•œ ์ด๋ฏธ์ง€์ธ class image๋ฅผ ๊ฐ™์ด ํ•™์Šตํ•˜์—ฌ ๊ธฐ์กด ๋ชจ๋ธ์ด ๊ฐ€์ง„ class name์— ๋Œ€ํ•œ ์ง€์‹์„ ์žŠ์ง€ ์•Š๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Designing Prompts for Few-Shot Personalization

์ €์ž๋“ค์˜ ๋ชฉํ‘œ๋Š” ์ƒˆ๋กœ์šด (key, value) ์Œ์„ diffusion model์˜ ์‚ฌ์ „์— ์‚ฝ์ž…ํ•˜์—ฌ ์ฃผ์ œ์— ๋Œ€ํ•œ key๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋กœ guide๋œ ์œ ์˜๋ฏธํ•œ ์˜๋ฏธ ์ˆ˜์ •์„ ํ†ตํ•ด ์ด ํŠน์ • ์ฃผ์ œ์˜ ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์ฃผ์ œ์— ๋Œ€ํ•œ ์‹๋ณ„์ž๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” naiveํ•œ ๋ฐฉ๋ฒ•์€ ๊ธฐ์กด ๋‹จ์–ด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด “unique” ๋˜๋Š” “special”๊ณผ ๊ฐ™์€ ๋‹จ์–ด๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ํ•œ ๊ฐ€์ง€ ๋ฌธ์ œ๋Š” ๊ธฐ์กด ์˜์–ด ๋‹จ์–ด๊ฐ€ text-to-image diffusion model์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์— ์กด์žฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— prior์— ๋” ๊ฐ•ํ•œ ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๋”ฐ๋ผ์„œ ์–ธ์–ด ๋ชจ๋ธ๊ณผ diffusion model ๋ชจ๋‘์—์„œ weak prior๋ฅผ ๊ฐ–๋Š” ์‹๋ณ„์ž๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ์ด๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ์œ„ํ—˜ํ•œ ๋ฐฉ๋ฒ•์€ ์˜์–ด์—์„œ ์ž„์˜์˜ ๋ฌธ์ž๋ฅผ ์„ ํƒํ•˜๊ณ  ์—ฐ๊ฒฐํ•˜์—ฌ ํฌ๊ท€ํ•œ ์‹๋ณ„์ž (ex. “xxy5syt00”)๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์‹ค์ œ๋กœ tokenizer๋Š” ๊ฐ ๋ฌธ์ž๋ฅผ ๊ฐœ๋ณ„์ ์œผ๋กœ ํ† ํฐํ™”ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ diffusion model์˜ ์‚ฌ์ „์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ž์— ๋Œ€ํ•ด ๊ฐ•๋ ฅํ•˜๋‹ค.

Class-specific Prior Preservation Loss

๋ชฉํ‘œ ๋Œ€์ƒ์„ ๋ฌ˜์‚ฌํ•˜๋Š” ์ž‘์€ ์ด๋ฏธ์ง€ ์„ธํŠธ์™€ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ “a [identifier] [class noun]”์—์„œ ์–ป์€ ๋™์ผํ•œ ์กฐ๊ฑด ๋ฒกํ„ฐ ๐‘๐‘ ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์˜ค๋ฆฌ์ง€๋„ diffusion model์˜ denoising loss๋กœ text-to-image model์„ finetuningํ•œ๋‹ค. ์ด๋Ÿฌํ•œ naiveํ•œ finetuning ์ „๋žต์—๋Š” overfitting๊ณผ language drift๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ์ฃผ์š” ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

์ €์ž๋“ค์€ autogenous class-specific prior-preserving loss๋ฅผ ํ†ตํ•ด overfitting ๋ฌธ์ œ์™€ language drift ๋ฌธ์ œ๋ฅผ ๋™์‹œ์— ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•œ๋‹ค. ๋ณธ์งˆ์ ์œผ๋กœ ๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ์„ ์ž์ฒด ์ƒ์„ฑํ•œ ์ƒ˜ํ”Œ๋“ค๋กœ superviseํ•˜๋ฉฐ few-shot finetuning์ด ์‹œ์ž‘ํ•œ ํ›„ prior๋ฅผ ์œ ์ง€ํ•œ๋‹ค.

Loss๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

๐œ†๋Š” prior-preservation ํ•ญ์˜ ์ƒ๋Œ€์  ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๊ฐ’์ด๋‹ค. ์ €์ž๋“ค์€ loss๊ฐ€ ๋‹จ์ˆœํ•จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  overfitting๊ณผ language-drift ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ด๋ผ๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค. 200 ์ดํ•˜์˜ epoch, learning rate 10−5, ๐œ†=1์œผ๋กœ ๋‘๋Š” ๊ฒƒ์ด ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ์ถฉ๋ถ„ํ•˜๋‹ค๊ณ  ํ•œ๋‹ค. ํ•™์Šต ๊ณผ์ •์—์„œ 200๐‘๊ฐœ ์ดํ•˜์˜ “a [class noun]” ์ƒ˜ํ”Œ๋“ค์ด ์ƒ์„ฑ๋˜๋ฉฐ, ๐‘์€ ์ฃผ์ œ ๋ฐ์ดํ„ฐ์…‹์˜ ํฌ๊ธฐ๋กœ ์ผ๋ฐ˜์ ์œผ๋กœ 3~5์ด๋‹ค. ํ•™์Šต ๊ณผ์ •์€ 1๊ฐœ์˜ TPUv4์—์„œ 15๋ถ„์ด ๊ฑธ๋ฆฐ๋‹ค.

 

Experiments

(1) Recontextualization

๋ชจ๋ธ ๐‘ฅ^๐œƒ๊ฐ€ ์ฃผ์–ด์ง€๋ฉด unique identifier์™€ class noun์„ ํฌํ•จํ•˜๋Š” ๋ฌธ์žฅ์„ ํ•™์Šต๋œ ๋ชจ๋ธ์— ์ž…๋ ฅํ•˜์—ฌ ํŠน์ • ์ฃผ์ œ ์ธ์Šคํ„ด์Šค์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. Recontextualization์„ ์œ„ํ•ด ์ผ๋ฐ˜์ ์œผ๋กœ “a [V] [class noun] [context description]”์˜ ํ˜•์‹์œผ๋กœ ๋ฌธ์žฅ์„ ๊ตฌ์„ฑํ•œ๋‹ค.

(2) Art Renditions

“a painting of a [V] [class noun] in the style of [famous painter]”๋‚˜ “a statue of a [V] [class noun] in the style of [famous sculptor]”์™€ ๊ฐ™์€ ํ”„๋กฌํ”„ํŠธ๋กœ ๋Œ€์ƒ ์ธ์Šคํ„ด์Šค์˜ ์˜ˆ์ˆ ์  ์—ฐ์ถœ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ํŠนํžˆ, ์ด task๋Š” source scene์˜ semantic์„ ์œ ์ง€ํ•˜๊ณ  ๋‹ค๋ฅธ ์ด๋ฏธ์ง€์˜ ์Šคํƒ€์ผ์„ source scene์œผ๋กœ transferํ•˜๋Š” style transfer๊ณผ ๋™์ผํ•˜์ง€ ์•Š๋‹ค. ๋Œ€์‹  ์˜ˆ์ˆ ์  ์Šคํƒ€์ผ์— ๋”ฐ๋ผ ํ”ผ์‚ฌ์ฒด ์ธ์Šคํ„ด์Šค ๋””ํ…Œ์ผ๊ณผ ์ •์ฒด์„ฑ ๋ณด์กด์„ ํ†ตํ•ด ์žฅ๋ฉด์—์„œ ์˜๋ฏธ ์žˆ๋Š” ๋ณ€ํ™”๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

(3) Expression Manipulation

ํ‘œ์ •์„ ์ˆ˜์ •ํ•œ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€ ์ƒ์„ฑ์— ๋Œ€ํ•œ ์˜ˆ์‹œ์ด๋‹ค.

 

Limitations

๋ณธ ๋…ผ๋ฌธ์˜ ๋ฐฉ๋ฒ•์€ ๋ช‡๊ฐ€์ง€ ์ œํ•œ์ ์ด ์กด์žฌํ•œ๋‹ค. ๋จผ์ €, ๋‹ค์Œ๊ณผ ๊ฐ™์ด 3๊ฐ€์ง€ ์ฃผ์š” failure mode๊ฐ€ ์กด์žฌํ•œ๋‹ค.

  1. ํ”„๋กฌํ”„ํŠธ ๋งฅ๋ฝ๊ณผ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€ ์ƒ์„ฑ
  2. Context-appearance entanglement
  3. ๋ณด์—ฌ์ค€ ์›๋ณธ ๋Œ€์ƒ๊ณผ ๋น„์Šทํ•œ ํ”„๋กฌํ”„ํŠธ์— ๋Œ€ํ•˜์—ฌ overfitting ๋ฐœ์ƒ

๋˜ ๋‹ค๋ฅธ ์ œํ•œ์ ์€ ๋ช‡๋ช‡ ๋Œ€์ƒ์ด ๋‹ค๋ฅธ ๋Œ€์ƒ์— ๋น„ํ•ด ํ•™์Šต์ด ๋” ๋น ๋ฅธ ๊ฒƒ์ด๋‹ค. ํ”ํ•œ ๋Œ€์ƒ์— ๋Œ€ํ•ด์„œ๋Š” ๊ฐ•ํ•œ prior๊ฐ€ ์žˆ์–ด ํ•™์Šต์ด ๋น ๋ฅด๊ณ  ํฌ๊ท€ํ•˜๊ฑฐ๋‚˜ ๋ณต์žกํ•œ ๋Œ€์ƒ์— ๋Œ€ํ•ด์„œ๋Š” ํ•™์Šต์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฐ๋‹ค. ์ฃผ์ œ์˜ fidelity์—๋„ ๊ฐ€๋ณ€์„ฑ์ด ์žˆ์œผ๋ฉฐ ์ผ๋ถ€ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€์—๋Š” ๋ชจ๋ธ prior์˜ ๊ฐ•๋„์™€ ์˜๋ฏธ๋ก ์  ์ˆ˜์ •์˜ ๋ณต์žก์„ฑ์— ๋”ฐ๋ผ ์ฃผ์ œ์— ๋Œ€ํ•œ ํ™˜๊ฐ์ ์ธ feature๊ฐ€ ํฌํ•จ๋  ์ˆ˜ ์žˆ๋‹ค.

Conclusions

๋“œ๋ฆผ๋ถ€์Šค๋Š” ์ด๋Ÿฐ ๋ฐฉ์‹์œผ๋กœ ์ ์€ ์ด๋ฏธ์ง€ ์ˆ˜๋กœ ํ•™์Šตํ•˜๋ฉด์„œ๋„ Fidelity๋ฅผ ์œ ์ง€ํ•˜๊ณ , ๊ธฐ์กด ๋ชจ๋ธ์˜ ์ •๋ณด๋ฅผ ์žŠ์ง€ ์•Š๊ฒŒ ํ•˜๋Š” ๊ฒƒ์— ์„ฑ๊ณตํ–ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์„ ์‘์šฉํ•˜์—ฌ ํ˜„์žฌ๋Š” Imagen ๋ง๊ณ ๋„ ์ตœ์‹  diffusion ๋ชจ๋ธ์ธ Stable diffusion์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“  ์ฝ”๋“œ๊ฐ€ ์˜คํ”ˆ์†Œ์Šค๋กœ github์— ๊ณต๊ฐœ๋˜์–ด์žˆ๊ณ , ์ด๋ฅผ ํ†ตํ•ด Stable Diffusion์„ Dreambooth๋กœ Fine-tuning ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ๋‹ค.

 

๋ฐ˜์‘ํ˜•

'AI > ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ Paper Review' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

Wasserstein GAN : arXiv 2017 | ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ  (0) 2024.03.03
Pix2Pix : CVPR 2017  (0) 2024.02.07
DCGAN : ICLR 2016  (0) 2024.01.28
Generative Adversarial Nets : arXive 2014  (0) 2024.01.15