AI/๋…ผ๋ฌธ ๋ฆฌ๋ทฐ Paper Review

NeRF | ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

ํ•ด๋“œ์œ„๊ทธ 2024. 5. 25. 19:57
๋ฐ˜์‘ํ˜•

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

 

ECCV 2020.
Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng
UC Berkeley | Google Research | UC San Diego
19 Mar 2020

 

Introduction

Drum์— ๋Œ€ํ•œ ์ด๋ฏธ์ง€ NeRF ํ•™์Šต ๊ฒฐ๊ณผ

 

NeRF๋Š” Neural Radiance Fields์˜ ์ค„์ž„๋ง๋กœ 2D ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์ฃผ์—ˆ์„ ๋•Œ, ๋งˆ์น˜ 3D๋ฅผ ๋ณด๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋‹ค๋ฅธ ์‹œ์ ์—์„œ ๋ณธ ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋Š” View Synthesis task๋ฅผ ๋‹ค๋ฃฌ๋‹ค. ๋ชจ๋ธ์€ MLP ํ˜•์‹์œผ๋กœ, ๋‹จ์ˆœํ•œ ๊ตฌ์กฐ๋กœ 3D scene representation์„ ์„ฑ๊ณตํ•˜์˜€๋‹ค.

 

NeRF์˜ ์ „์ฒด ํ๋ฆ„:

ํ•˜๋‚˜์˜ 2D object์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ๋ฐฉํ–ฅ์—์„œ ์ฐํžŒ ์ด๋ฏธ์ง€๋“ค์„ ํ•™์Šตํ•˜์—ฌ, ํ•™์Šตํ•˜์ง€ ์•Š์€ ๋ฐฉํ–ฅ์—์„œ ๋ฐ”๋ผ๋ณธ object ๋ชจ์Šต์„ ์˜ˆ์ธกํ•œ๋‹ค.

3D Object ์ž์ฒด๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ object๋ฅผ ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์—์„œ ๋ฐ”๋ผ๋ณด๋Š” ์žฅ๋ฉด์„ ์ƒ์„ฑํ•˜๋Š” View Synthesis ๊ธฐ์ˆ ์ด๋‹ค.

 

  • Input data : ๋‹ค์–‘ํ•œ ๊ฐ๋„์—์„œ ๊ฐ์ฒด๋ฅผ ์ดฌ์˜ํ•œ ์ด๋ฏธ์ง€ (RGB + Mask์˜ 4์ฑ„๋„) / ์นด๋ฉ”๋ผ ํŒŒ๋ผ๋ฏธํ„ฐ (์นด๋ฉ”๋ผ ์œ„์น˜ + ๊ฐ๋„)
  • Output data : ์ƒˆ๋กœ์šด view

 

Neural Radiance Field scene representation ๊ฐœ์š”์™€ rendering ์ ˆ์ฐจ
(a) ray๋ฅผ ๋”ฐ๋ผ 5D ์ขŒํ‘œ(์œ„์น˜ + ์‹œ๊ฐ ๋ฐฉํ–ฅ)๋ฅผ ์ƒ˜ํ”Œ๋งํ•ด ์˜์ƒ์„ ํ•ฉ์„ฑ
(b) MLP์— 5D ์ขŒํ‘œ๋ฅผ ํ†ต๊ณผ์‹œ์ผœ ์ƒ‰์ƒ(RGB)์™€ ๋ฐ€๋„(density)๋ฅผ ์ƒ์„ฑ
(c) volume rendering ๊ธฐ์ˆ ์„ ์ด์šฉํ•ด ray๋ฅผ ํ”ฝ์…€ ๊ฐ’์œผ๋กœ ํ•ฉ์„ฑ
(d) ํ•ฉ์„ฑ๋œ ํ”ฝ์…€๊ณผ ์‹ค์ œ ํ•™์Šต ๋ฐ์ดํ„ฐ ์‚ฌ์ด์˜ ์ฐจ์ด๋ฅผ ์ตœ์†Œํ™”ํ•ด scene representation๋ฅผ ์ตœ์ ํ™”

 

์šฐ์„ , ray์™€ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์šฉ๋˜๋Š” 5D ์ขŒํ‘œ $x, y, z$, θ, ฯ•์— ๋Œ€ํ•ด ๊ฐ„๋‹จํ•˜๊ฒŒ ์งš๊ณ  ๋„˜์–ด๊ฐ€์ž.

 

ray

ray๋Š” ํ™”๋ฉด ์ƒ์— ํˆฌ์˜๋˜๋Š” ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด object์™€ ์ƒํ˜ธ ์ž‘์šฉ๋˜๋Š” ๋น›์„ ์˜๋ฏธํ•œ๋‹ค.

r(t)=o+td๋กœ ํ‘œํ˜„, o๋Š” ์›์ (์นด๋ฉ”๋ผ), d๋Š” ์‹œ๊ฐ ๋ฐฉํ–ฅ, t๋Š” ์ƒ˜ํ”Œ๋ง๋˜๋Š” ์ง€์ (์›์ ์—์„œ ์‹œ๊ฐ ๋ฐฉํ–ฅ์œผ๋กœ ํŠน์ • ๊ฑฐ๋ฆฌ๋งŒํผ ์ด๋™)์„ ์˜๋ฏธ.

NeRF๋Š” ray๊ฐ€ object๊ฐ€ ๋ถ€๋”ชํž ๋•Œ, ํ•ด๋‹น object์— ๋‹ฟ๋Š” ๋น›์˜ ์–‘์„ ์ถ”์ธกํ•˜๋Š” ํ˜•ํƒœ์˜ radiance field rendering ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค.

radiance field์—์„œ ํ•˜๋‚˜์˜ object๋Š” ์ˆ˜๋งŽ์€ ์ž‘์€ ์ž…์ž๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์–ด,

๊ณต๊ฐ„์˜ ํŠน์ • ์ง€์ ์—์„œ ray๊ฐ€ object์™€ ์ถฉ๋Œํ•˜๋Š” ๊ฒƒ์€ ์ž…์ž(particle)์™€ ์ถฉ๋Œ์ด ๋ฐœ์ƒํ•  ํ™•๋ฅ ๋กœ ๊ทผ์‚ฌํ™”๋œ๋‹ค.

๋ชจ๋“  ๊ด‘์„ ์€ ์ž…์ž๊ฐ€ ๋‹ฟ์„ ๋•Œ๊นŒ์ง€ field๋ฅผ ํ†ต๊ณผํ•˜๋ฉฐ, ์ตœ์ข…์ ์œผ๋กœ ์ข…๋ฃŒ๋˜์—ˆ์„ ์‹œ ํ•ด๋‹น particle์—์„œ ์นด๋ฉ”๋ผ๋ฅผ ํ–ฅํ•ด ๋ฐ˜์‚ฌ๋˜๋Š” ์ƒ‰์„ ๋ฐ˜ํ™˜ํ•œ๋‹ค.

์œ„์น˜ $x=(x,y,z)$ ์‹œ๊ฐ ๋ฐฉํ–ฅ ๋ฅผ ์ž…๋ ฅ ๋ฐ›์Œ.

 

Volume Rendering with Radiance Fields

Volume Rendering์€ ๊ทธ๋ž˜ํ”ฝ์Šค ๋ถ„์•ผ์—์„œ 3D ๋ฐ์ดํ„ฐ๋ฅผ 2D ํˆฌ์‹œ๋กœ ๋ณด์—ฌ์ฃผ๋Š” ์‹œ๊ฐํ™” ๊ธฐ์ˆ ์ด๋‹ค.
NeRF๋Š” volume rendering์„ ํ•˜๊ธฐ ์œ„ํ•ด, radiance field ํ™˜๊ฒฝ์˜ ray๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๋ฐ

ray์— ์–ด๋–ค ์ง€์ ์„ ๊ฐ€์ ธ์™€ rendering์— ์‚ฌ์šฉํ•  ์ง€ ์ •ํ•ด์•ผํ•˜๋ฉฐ, ์ด๋•Œ Stratified Sampling์„ ์‚ฌ์šฉํ•ด ์ง€์ ๋“ค์„ samplingํ•œ๋‹ค.

 : ray r์˜ volume rendering ์˜ˆ์ƒ ์ƒ‰์ƒ ๊ฐ’
 : ํ˜„์žฌ sampling๋œ ์œ„์น˜
 : ๋ˆ„์  ํˆฌ๊ณผ๋„(transmittance)๋กœ ray r๊ฐ€ ๋ฌผ์ฒด ์ผ๋ถ€ ์ž…์ž(particle)์— ๋ถ€๋”ชํžˆ์ง€ ์•Š๊ณ  t๊นŒ์ง€ ์ด๋™ํ•  ํ™•๋ฅ 
: ๋ฐ€๋„๋กœ ray r์ด ์œ„์น˜ t์—์„œ ์ž…์ž์™€ ์ถฉ๋Œํ•  ํ™•๋ฅ 
 : ์‹œ๊ฐ ๋ฐฉํ–ฅ(θ,ฯ•)
 : ๋ฐฉํ–ฅ d์ธ ray ์˜ ์œ„์น˜ t์—์„œ์˜ ์ƒ‰์ƒ ๊ฐ’

 

์ตœ์ข…ํ”ฝ์…€ C(r) : ์ƒ˜ํ”Œ๋ง ํฌ์ธํŠธ์—์„œ์˜ density์™€ color๋ฅผ ๊ณฑํ•œ ๊ฐ’์„ ray๋ฅผ ์œ ๊ฐ€๊นŒ์šด ์ง€์ ๋ถ€ํ„ฐ ๋จผ ์ง€์ ๊นŒ์ง€ ์ ๋ถ„์„ ํ•˜๋Š”๋ฐ, ์ด ๋•Œ Accumulated transmittance(T(t))๊ฐ’ ๋˜ํ•œ ๊ณฑํ•ด์ ธ ์žˆ๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ray๊ฐ€ ํ•ด๋‹น ํฌ์ธํŠธ์— ๋„๋‹ฌํ•  ํ™•๋ฅ ์ด๊ธฐ ๋•Œ๋ฌธ์—, ray๊ฐ€ ์ฒซ ๋ฒˆ์งธ๋กœ ๋งŒ๋‚˜๋Š” ๊ฐ์ฒด์˜ color์— ๋” ๋งŽ์€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง€๊ณ  ์ตœ์ข… color ๊ฐ’์ด ๊ฒฐ์ •๋œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 

stratified sampling์„ ์‚ฌ์šฉํ•œ๋‹ค๋ฉด ์—ฐ์†์ ์ธ ์œ„์น˜(position)๊ฐ€ ๊ฐ€๋Šฅํ•ด, ์—ฐ์†์ ์ธ ์žฅ๋ฉด ํ‘œํ˜„์„ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์–ด ์œ„ ์ˆ˜์‹๊ณผ ๊ฐ™์ด ์ ๋ถ„์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

 

stratified sampling:

์ผ์ข…์˜ ๋žœ๋ค ์ƒ˜ํ”Œ๋ง์ธ strtified sampling์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ bin ๋งˆ๋‹ค ์ผ์ • ๊ฐ„๊ฒฉ์œผ๋กœ ์ƒ˜ํ”Œ๋ง์„ ํ•˜์ง€๋งŒ, bin ๋‚ด์—์„œ๋Š” ๋žœ๋คํ•˜๊ฒŒ ์ƒ˜ํ”Œ ํฌ์ธํŠธ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. 

-> ์ด๋กœ ์ธํ•ด ray์— ๋Œ€ํ•ด continuousํ•œ ํ•™์Šต์ด ๊ฐ€๋Šฅ

์ ๋ถ„ ๊ฐ’์„ ์ถ”์ •ํ•˜๊ธฐ ์œ„ํ•ด ์ƒ˜ํ”Œ๋“ค์˜ ์ด์‚ฐ์ ์ธ ์ง‘ํ•ฉ์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ ๊ณ„์ธตํ™”๋œ ์ƒ˜ํ”Œ๋ง์„ ์‚ฌ์šฉํ•˜๋ฉด

์ตœ์ ํ™” ๊ณผ์ •์—์„œ ์—ฐ์†์ ์ธ ์œ„์น˜์—์„œ MLP๊ฐ€ ํ‰๊ฐ€๋˜๋ฏ€๋กœ ์—ฐ์†์ ์ธ ์žฅ๋ฉด ํ‘œํ˜„์„ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

์ด๋Ÿฌํ•œ ์ƒ˜ํ”Œ๋“ค์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์„ ์ถ”์ •ํ•œ๋‹ค.

 

 

Optimizing a Neural Radiance Field

๋ณธ ๋…ผ๋ฌธ์€ ๋ณต์žกํ•œ scene์— ๋Œ€ํ•ด ๋†’์€ ํ•ด์ƒ๋„ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๋„๋ก 2๊ฐ€์ง€ ๊ธฐ๋ฒ•์„ ์ถ”๊ฐ€์ ์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

 

1. Positional Encoding

high-frequency ์ •๋ณด๋ฅผ ์ž˜ ๋ณด์กดํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•, MLP ์ž…๋ ฅ์ธ ์œ„์น˜ ์ •๋ณด์™€ ๋ฐฉํ–ฅ ์ •๋ณด์— ์ ์šฉ๋œ๋‹ค.

3์ฐจ์›์ธ ์œ„์น˜ ์ •๋ณด์™€ 2์ฐจ์›์ธ ๋ฐฉํ–ฅ ์ •๋ณด๊ฐ€ ๋„ˆ๋ฌด ์ €์ฐจ์›์ด๊ธฐ์— positional Encoding์œผ๋กœ ๊ณ ์ฐจ์›์œผ๋กœ ์ž„๋ฒ ๋”ฉ์‹œ์ผœ MLP์˜ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ์ฐจ์›ํ™” ์‹œ์ผœ์ฃผ๋Š” ๊ฒƒ์ด๋‹ค. (์ €์ฐจ์› ์ž…๋ ฅ์„ ์‚ฌ์šฉํ•˜๋ฉด ๊ฒฐ๊ณผ๊ฐ€ low-frequency์— ์น˜์ค‘๋จ)

์ด๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด, ์œ„์น˜์˜ ์ž‘์€ ์ฐจ์ด๋„ ๋” ๊ณ ์ฐจ์›์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ธฐ์— MLP๊ฐ€ ์œ„์น˜์˜ ์„ธ๋ฐ€ํ•œ ์ฐจ์ด๋ฅผ ์ž˜ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ณ ,

๊ทธ๋ ‡๊ธฐ์— high-frequency๋ฅผ ์ž˜ ์œ ์ง€ํ•˜๊ฒŒ ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

 

์œ„ ์ˆ˜์‹์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ํ•˜๋‚˜์˜ ๋ณ€์ˆ˜ $p$๊ฐ€ ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด๊ฐ€๋ฉฐ ์ž…๋ ฅ ๊ฐ’ $p$ ํ•˜๋‚˜๊ฐ€ $L*2$๋กœ ๊ณ ์ฐจ์›์— ๋งคํ•‘๋œ๋‹ค.

 

๋ฐฉํ–ฅ์ •๋ณด์™€ Positional Encoding ํšจ๊ณผ ํ™•์ธ

์œ„ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด MLP์— ๋ฐฉํ–ฅ ์ •๋ณด๋ฅผ ์ฃผ์ž…ํ•˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ, ๋ฐฉํ–ฅ์— ๋”ฐ๋ฅธ ์ปฌ๋Ÿฌ ์ฐจ์ด๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ˜์‚ฌ๊ฐ€ ์ผ์–ด๋‚˜๋Š” ๋ถ€๋ถ„์ด ํ‘œํ˜„๋˜์ง€ ์•Š๋Š”๋‹ค.

positional encoding์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ์—๋Š” high-frequency ์ •๋ณด๊ฐ€ ๋งŽ์ด ์†Œ์‹ค๋˜์–ด ์„ธ๋ฐ€ํ•œ ๋ถ€๋ถ„์ด ์ž˜ ํ‘œํ˜„๋˜์ง€ ์•Š๋Š”๋‹ค.

 

2. Hierarchical Sampling

ray ์œ„์—์„œ ํฌ์ธํŠธ๋ฅผ ์–ด๋–ป๊ฒŒ ์ƒ˜ํ”Œ๋งํ•˜๋Š”์ง€๋„ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ผ์นœ๋‹ค.

ํ€„๋ฆฌํ‹ฐ๋ฅผ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•์—๋Š” ๋” ๋งŽ์€ sampling์„ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ๋ฐฉ๋ฒ•์ด์ง€๋งŒ, ๋ Œ๋”๋ง๋œ ์ด๋ฏธ์ง€์— ๊ธฐ์—ฌํ•˜์ง€ ์•Š๋Š” ๋ฌผ์ฒด๊ฐ€ ์—†๋Š” ๋ถ€๋ถ„(free space), ๊ฐ€๋ ค์ง„ ๋ถ€๋ถ„(occluded region)์ด ๋ฐ˜๋ณต์ ์œผ๋กœ ์ƒ˜ํ”Œ๋ง๋  ์ˆ˜ ์žˆ์–ด ๋น„ํšจ์œจ์ ์ด๋‹ค.

 

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ƒ˜ํ”Œ๋ง์„ 2๋ฒˆ์— ๋‚˜๋ˆ ์„œํ•˜๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜๊ณ , 2๊ฐœ์˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋ฉฐ

์ฒซ๋ฒˆ์งธ ๋ชจ๋ธ์„ coarse network, ๋‘๋ฒˆ์งธ ๋ชจ๋ธ์„ fine network๋ผ ํ•œ๋‹ค.

 

coarse network๋Š” ์œ„์—์„œ ์„ค๋ช…ํ–ˆ๋˜ Stratified Sampling ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค. ์ˆ˜์— ๋”ฐ๋ผ bins๋ฅผ ๋‚˜๋ˆ„๊ณ  ํ•ด๋‹น bins ์•ˆ์—์„œ uniform random sampling์„ ํ†ตํ•ด ์ƒ˜ํ”Œ๋ง์„ ์ง„ํ–‰ํ•œ ํ›„, Volume Rendering ์ˆ˜์‹๊นŒ์ง€ ๋ชจ๋‘ ๊ณ„์‚ฐํ•œ๋‹ค. ์ด๋•Œ ๋ฐ€๋„๊ฐ’์ด ๋†’์€ ์ƒ˜ํ”Œ๋ง ์ง€์ ์€ ์–ด๋–ค ๋ฌผ์ฒด๊ฐ€ ์žˆ์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ์ง€์ ์ด ๋˜๋ฉฐ, ํ”ฝ์…€์— ํ‘œํ˜„๋  ํ™•๋ฅ ์ด ๋†’์€ ์ง€์ ์ด๋ผ๊ณ ๋„ ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด ์ง€์ ๋“ค์— ๋Œ€ํ•ด์„œ ๋” ์ƒ˜ํ”Œ๋ง์„ ์ง„ํ–‰ํ•œ๋‹ค๋ฉด ์ข€ ๋” ๋””ํ…Œ์ผํ•œ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ ์ƒ์ •ํ•˜๊ณ , ๋‘๋ฒˆ์งธ fine network ํ•™์Šต ๊ณผ์ •์„ ์ง„ํ–‰ํ•œ๋‹ค.

fine network์—๋Š” inverse transform sampling์œผ๋กœ ์ƒ˜ํ”Œ๋งํ•œ ์ง€์ ๋“ค๊ณผ ํ•จ๊ป˜ ์ฒ˜์Œ coarse network์—์„œ ์ƒ˜ํ”Œ๋งํ–ˆ๋˜ ์ง€์ ๋“ค์„ ๋ชจ๋‘ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ตœ์ข… ๋ Œ๋”๋ง ์ƒ‰์ƒ์„ ๊ณ„์‚ฐํ•˜๊ฒŒ ๋œ๋‹ค.

 

Loss

๊ฐ ์žฅ๋ฉด์— ๋Œ€ํ•ด ๋ณ„๋„์˜ NeRF ํ‘œํ˜„ ์‹ ๊ฒฝ๋ง์„ ์ตœ์ ํ™”ํ•œ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ์žฅ๋ฉด์˜ ์บก์ฒ˜๋œ RGB ์ด๋ฏธ์ง€, ํ•ด๋‹น ์นด๋ฉ”๋ผ ํฌ์ฆˆ, intrinsic parameter, ์žฅ๋ฉด ๊ฒฝ๊ณ„๋กœ ๊ตฌ์„ฑ๋œ ๋ฐ์ดํ„ฐ์…‹๋งŒ ํ•„์š”ํ•˜๋‹ค.

Loss๋Š” ๋‹จ์ˆœํžˆ coarse ๋ Œ๋”๋ง๊ณผ fine ๋ Œ๋”๋ง ๋ชจ๋‘์— ๋Œ€ํ•ด ๋ Œ๋”๋ง๋œ ํ”ฝ์…€ ์ƒ‰์ƒ๊ณผ ์‹ค์ œ ํ”ฝ์…€ ์ƒ‰์ƒ ๊ฐ„์˜ ์ด ์ œ๊ณฑ ์˜ค์ฐจ์ด๋‹ค.

 

Conclusions

Model

model์˜ ๊ตฌ์กฐ

๋ชจ๋ธ์— ์ž…๋ ฅ๋˜๋Š” ๊ฐ’์€ ๋…น์ƒ‰, ์ถœ๋ ฅ๋˜๋Š” ๊ฐ’์€ ๋นจ๊ฐ„์ƒ‰์œผ๋กœ ํ‘œ์‹œ๋˜์–ด ์žˆ์œผ๋ฉฐ

๊ฒ€์€ ์‹ค์„  ํ™”์‚ดํ‘œ๋Š” ReLU activation, ์ฃผํ™ฉ์ƒ‰ ์‹ค์„  ํ™”์‚ดํ‘œ๋Š” activation์ด ์—†๊ณ 

๊ฒ€์€์ƒ‰ ์ ์„  ํ™”์‚ดํ‘œ๋Š” Sigmoid activation์ด ์žˆ๋Š” layer์ด๋‹ค.

 

Results

scene ๋‹น ๋ณ„๋„์˜ network๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” NV์™€ SRN์— ๋Œ€ํ•ด์„œ๋Š” ๋ชจ๋“  ์ˆ˜์น˜๊ฐ€ NeRF๊ฐ€ ๋‹ค๋ฅธ ๋‘ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•จ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

LLFF๋Š” Real Forward-Facing ๋ฐ์ดํ„ฐ์…‹ ๊ฒฐ๊ณผ์—์„œ LPIPS ์ˆ˜์น˜๊ฐ€ NeRF๋ณด๋‹ค ๋” ์ข‹์ง€๋งŒ NeRF์˜ ์ €์ž๋“ค์€ NeRF์˜ ๊ฒฐ๊ณผ๊ฐ€ ๋” ๋‚˜์€ ์ผ๊ด€์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฉฐ ๋” ์ ์€ artifact๋ฅผ ์ƒ์„ฑํ•œ๋‹ค๊ณ  ์–ธ๊ธ‰ํ•œ๋‹ค.

NeRF๋Š” ๋ชจ๋“  ๋ถ€๋ถ„์—์„œ ๋””ํ…Œ์ผํ•œ ์ ๊นŒ์ง€ ๋งŒ๋“ค์–ด๋ƒ„์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

LLFF์˜ ๊ฒฝ์šฐ Microphone’s stand์™€ Material’s object edges์— banding artifact, Ship’s mast์™€ Lego ๋‚ด๋ถ€์— ghosting artifact๋ฅผ ์ƒ์„ฑํ–ˆ๋‹ค. LLFF๋Š” ์ž…๋ ฅ view ๊ฐ„ ๊ฐ„๊ฒฉ(disparity)๊ฐ€ 64 ํ”ฝ์…€์„ ๋„˜์ง€ ์•Š๋„๋ก “sampling guideline”์„ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์— view ๊ฐ„๊ฒฉ์ด ์ตœ๋Œ€ 400~500 ํ”ฝ์…€์ธ synthetic ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ •ํ™•ํ•œ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๋ฅผ ์ถ”์ •ํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•˜๋‹ค๊ณ  ํ•œ๋‹ค.

SRN์€ ๋ชจ๋“  ๊ฒฝ์šฐ์— ํ๋ฆฟํ•˜๊ณ  ์™œ๊ณก๋œ ๋ Œ๋”๋ง์„ ์ƒ์„ฑํ–ˆ๋‹ค. SRN์€ ์‹ฌํ•˜๊ฒŒ smoothํ•œ ์งˆ๊ฐ์„ ์ƒ์„ฑํ•˜๋ฉฐ ํ•˜๋‚˜์˜ ray์—์„œ ๋‹จ์ผ depth์™€ color๋งŒ ์„ ํƒํ•˜๊ธฐ ๋•Œ๋ฌธ์— view synthesis๋ฅผ ์œ„ํ•œ ํ‘œํ˜„๋ ฅ์ด ์ œํ•œ๋œ๋‹ค.

Neural Volumes๋Š” Microphone’s grille ๋˜๋Š” Lego’s gear์˜ ๋””ํ…Œ์ผ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์—†์œผ๋ฉฐ, Ship’s rigging์— ๋Œ€ํ•œ ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๋ฅผ ์™„์ „ํžˆ ์ƒ์„ฑํ•˜์ง€ ๋ชปํ–ˆ๋‹ค. 1283๊ฐœ์˜ voxel grid๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋ช…์‹œ๋˜์–ด ์žˆ์–ด ๊ณ ํ•ด์ƒ๋„์—์„œ ์ž์„ธํ•œ ๋””ํ…Œ์ผ์„ ๋‚˜ํƒ€๋‚ด๊ธฐ ์œ„ํ•ด ํ™•์žฅํ•  ์ˆ˜ ์—†๋Š” ๊ฒƒ์ด ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค.

 

 

๋ฐ˜์‘ํ˜•