NeRF | ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
ECCV 2020.
Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng
UC Berkeley | Google Research | UC San Diego
19 Mar 2020
Introduction
NeRF๋ Neural Radiance Fields์ ์ค์๋ง๋ก 2D ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฃผ์์ ๋, ๋ง์น 3D๋ฅผ ๋ณด๋ ๊ฒ์ฒ๋ผ ๋ค๋ฅธ ์์ ์์ ๋ณธ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ View Synthesis task๋ฅผ ๋ค๋ฃฌ๋ค. ๋ชจ๋ธ์ MLP ํ์์ผ๋ก, ๋จ์ํ ๊ตฌ์กฐ๋ก 3D scene representation์ ์ฑ๊ณตํ์๋ค.
NeRF์ ์ ์ฒด ํ๋ฆ:
ํ๋์ 2D object์ ๋ํด ์ฌ๋ฌ ๋ฐฉํฅ์์ ์ฐํ ์ด๋ฏธ์ง๋ค์ ํ์ตํ์ฌ, ํ์ตํ์ง ์์ ๋ฐฉํฅ์์ ๋ฐ๋ผ๋ณธ object ๋ชจ์ต์ ์์ธกํ๋ค.
3D Object ์์ฒด๋ฅผ ์์ฑํ๋ ๊ฒ์ด ์๋๋ผ object๋ฅผ ์๋ก์ด ๋ฐฉํฅ์์ ๋ฐ๋ผ๋ณด๋ ์ฅ๋ฉด์ ์์ฑํ๋ View Synthesis ๊ธฐ์ ์ด๋ค.
- Input data : ๋ค์ํ ๊ฐ๋์์ ๊ฐ์ฒด๋ฅผ ์ดฌ์ํ ์ด๋ฏธ์ง (RGB + Mask์ 4์ฑ๋) / ์นด๋ฉ๋ผ ํ๋ผ๋ฏธํฐ (์นด๋ฉ๋ผ ์์น + ๊ฐ๋)
- Output data : ์๋ก์ด view
Neural Radiance Field scene representation ๊ฐ์์ rendering ์ ์ฐจ
(a) ray๋ฅผ ๋ฐ๋ผ 5D ์ขํ(์์น + ์๊ฐ ๋ฐฉํฅ)๋ฅผ ์ํ๋งํด ์์์ ํฉ์ฑ
(b) MLP์ 5D ์ขํ๋ฅผ ํต๊ณผ์์ผ ์์(RGB)์ ๋ฐ๋(density)๋ฅผ ์์ฑ
(c) volume rendering ๊ธฐ์ ์ ์ด์ฉํด ray๋ฅผ ํฝ์
๊ฐ์ผ๋ก ํฉ์ฑ
(d) ํฉ์ฑ๋ ํฝ์
๊ณผ ์ค์ ํ์ต ๋ฐ์ดํฐ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ์ต์ํํด scene representation๋ฅผ ์ต์ ํ
์ฐ์ , ray์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ก ์ฌ์ฉ๋๋ 5D ์ขํ $x, y, z$, θ, ฯ์ ๋ํด ๊ฐ๋จํ๊ฒ ์ง๊ณ ๋์ด๊ฐ์.
ray
ray๋ ํ๋ฉด ์์ ํฌ์๋๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด object์ ์ํธ ์์ฉ๋๋ ๋น์ ์๋ฏธํ๋ค.
r(t)=o+td๋ก ํํ, o๋ ์์ (์นด๋ฉ๋ผ), d๋ ์๊ฐ ๋ฐฉํฅ, t๋ ์ํ๋ง๋๋ ์ง์ (์์ ์์ ์๊ฐ ๋ฐฉํฅ์ผ๋ก ํน์ ๊ฑฐ๋ฆฌ๋งํผ ์ด๋)์ ์๋ฏธ.
NeRF๋ ray๊ฐ object๊ฐ ๋ถ๋ชํ ๋, ํด๋น object์ ๋ฟ๋ ๋น์ ์์ ์ถ์ธกํ๋ ํํ์ radiance field rendering ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
radiance field์์ ํ๋์ object๋ ์๋ง์ ์์ ์ ์๋ก ์ด๋ฃจ์ด์ ธ ์์ด,
๊ณต๊ฐ์ ํน์ ์ง์ ์์ ray๊ฐ object์ ์ถฉ๋ํ๋ ๊ฒ์ ์ ์(particle)์ ์ถฉ๋์ด ๋ฐ์ํ ํ๋ฅ ๋ก ๊ทผ์ฌํ๋๋ค.
๋ชจ๋ ๊ด์ ์ ์ ์๊ฐ ๋ฟ์ ๋๊น์ง field๋ฅผ ํต๊ณผํ๋ฉฐ, ์ต์ข ์ ์ผ๋ก ์ข ๋ฃ๋์์ ์ ํด๋น particle์์ ์นด๋ฉ๋ผ๋ฅผ ํฅํด ๋ฐ์ฌ๋๋ ์์ ๋ฐํํ๋ค.
์์น $x=(x,y,z)$ ์๊ฐ ๋ฐฉํฅ ๋ฅผ ์ ๋ ฅ ๋ฐ์.
Volume Rendering with Radiance Fields
Volume Rendering์ ๊ทธ๋ํฝ์ค ๋ถ์ผ์์ 3D ๋ฐ์ดํฐ๋ฅผ 2D ํฌ์๋ก ๋ณด์ฌ์ฃผ๋ ์๊ฐํ ๊ธฐ์ ์ด๋ค.
NeRF๋ volume rendering์ ํ๊ธฐ ์ํด, radiance field ํ๊ฒฝ์ ray๋ฅผ ์ฌ์ฉํ๋๋ฐ
ray์ ์ด๋ค ์ง์ ์ ๊ฐ์ ธ์ rendering์ ์ฌ์ฉํ ์ง ์ ํด์ผํ๋ฉฐ, ์ด๋ Stratified Sampling์ ์ฌ์ฉํด ์ง์ ๋ค์ samplingํ๋ค.
: ray r์ volume rendering ์์ ์์ ๊ฐ
: ํ์ฌ sampling๋ ์์น
: ๋์ ํฌ๊ณผ๋(transmittance)๋ก ray r๊ฐ ๋ฌผ์ฒด ์ผ๋ถ ์
์(particle)์ ๋ถ๋ชํ์ง ์๊ณ t๊น์ง ์ด๋ํ ํ๋ฅ
: ๋ฐ๋๋ก ray r์ด ์์น t์์ ์
์์ ์ถฉ๋ํ ํ๋ฅ
: ์๊ฐ ๋ฐฉํฅ(θ,ฯ)
: ๋ฐฉํฅ d์ธ ray ์ ์์น t์์์ ์์ ๊ฐ
์ต์ข ํฝ์ C(r) : ์ํ๋ง ํฌ์ธํธ์์์ density์ color๋ฅผ ๊ณฑํ ๊ฐ์ ray๋ฅผ ์ ๊ฐ๊น์ด ์ง์ ๋ถํฐ ๋จผ ์ง์ ๊น์ง ์ ๋ถ์ ํ๋๋ฐ, ์ด ๋ Accumulated transmittance(T(t))๊ฐ ๋ํ ๊ณฑํด์ ธ ์๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ์ด๋ ray๊ฐ ํด๋น ํฌ์ธํธ์ ๋๋ฌํ ํ๋ฅ ์ด๊ธฐ ๋๋ฌธ์, ray๊ฐ ์ฒซ ๋ฒ์งธ๋ก ๋ง๋๋ ๊ฐ์ฒด์ color์ ๋ ๋ง์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง๊ณ ์ต์ข color ๊ฐ์ด ๊ฒฐ์ ๋๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
stratified sampling์ ์ฌ์ฉํ๋ค๋ฉด ์ฐ์์ ์ธ ์์น(position)๊ฐ ๊ฐ๋ฅํด, ์ฐ์์ ์ธ ์ฅ๋ฉด ํํ์ ๋ํ๋ผ ์ ์์ด ์ ์์๊ณผ ๊ฐ์ด ์ ๋ถ์ ์ฌ์ฉํ ์ ์๋ค.
stratified sampling:
์ผ์ข ์ ๋๋ค ์ํ๋ง์ธ strtified sampling์ ์ฌ์ฉํ์ฌ ๊ฐ bin ๋ง๋ค ์ผ์ ๊ฐ๊ฒฉ์ผ๋ก ์ํ๋ง์ ํ์ง๋ง, bin ๋ด์์๋ ๋๋คํ๊ฒ ์ํ ํฌ์ธํธ๋ฅผ ์์ฑํ๋ค.
-> ์ด๋ก ์ธํด ray์ ๋ํด continuousํ ํ์ต์ด ๊ฐ๋ฅ
์ ๋ถ ๊ฐ์ ์ถ์ ํ๊ธฐ ์ํด ์ํ๋ค์ ์ด์ฐ์ ์ธ ์งํฉ์ ์ฌ์ฉํ์ง๋ง ๊ณ์ธตํ๋ ์ํ๋ง์ ์ฌ์ฉํ๋ฉด
์ต์ ํ ๊ณผ์ ์์ ์ฐ์์ ์ธ ์์น์์ MLP๊ฐ ํ๊ฐ๋๋ฏ๋ก ์ฐ์์ ์ธ ์ฅ๋ฉด ํํ์ ๋ํ๋ผ ์ ์๋ค.
์ด๋ฌํ ์ํ๋ค์ ์ฌ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ์ ์ถ์ ํ๋ค.
Optimizing a Neural Radiance Field
๋ณธ ๋ ผ๋ฌธ์ ๋ณต์กํ scene์ ๋ํด ๋์ ํด์๋ ํํ์ด ๊ฐ๋ฅํ๋๋ก 2๊ฐ์ง ๊ธฐ๋ฒ์ ์ถ๊ฐ์ ์ผ๋ก ์ฌ์ฉํ๋ค.
1. Positional Encoding
high-frequency ์ ๋ณด๋ฅผ ์ ๋ณด์กดํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ, MLP ์ ๋ ฅ์ธ ์์น ์ ๋ณด์ ๋ฐฉํฅ ์ ๋ณด์ ์ ์ฉ๋๋ค.
3์ฐจ์์ธ ์์น ์ ๋ณด์ 2์ฐจ์์ธ ๋ฐฉํฅ ์ ๋ณด๊ฐ ๋๋ฌด ์ ์ฐจ์์ด๊ธฐ์ positional Encoding์ผ๋ก ๊ณ ์ฐจ์์ผ๋ก ์๋ฒ ๋ฉ์์ผ MLP์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ๊ณ ์ฐจ์ํ ์์ผ์ฃผ๋ ๊ฒ์ด๋ค. (์ ์ฐจ์ ์ ๋ ฅ์ ์ฌ์ฉํ๋ฉด ๊ฒฐ๊ณผ๊ฐ low-frequency์ ์น์ค๋จ)
์ด๋ฅผ ์ฌ์ฉํ๋ฉด, ์์น์ ์์ ์ฐจ์ด๋ ๋ ๊ณ ์ฐจ์์ผ๋ก ํํํ ์ ์๊ธฐ์ MLP๊ฐ ์์น์ ์ธ๋ฐํ ์ฐจ์ด๋ฅผ ์ ํ์ตํ ์ ์๊ณ ,
๊ทธ๋ ๊ธฐ์ high-frequency๋ฅผ ์ ์ ์งํ๊ฒ ๋๋ค๋ ๊ฒ์ด๋ค.
์ ์์์์ ๋ณผ ์ ์๋ฏ์ด, ํ๋์ ๋ณ์ $p$๊ฐ ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๋ฉฐ ์ ๋ ฅ ๊ฐ $p$ ํ๋๊ฐ $L*2$๋ก ๊ณ ์ฐจ์์ ๋งคํ๋๋ค.
์ ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด MLP์ ๋ฐฉํฅ ์ ๋ณด๋ฅผ ์ฃผ์ ํ์ง ์๋ ๊ฒฝ์ฐ, ๋ฐฉํฅ์ ๋ฐ๋ฅธ ์ปฌ๋ฌ ์ฐจ์ด๋ฅผ ์์ธกํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ฐ์ฌ๊ฐ ์ผ์ด๋๋ ๋ถ๋ถ์ด ํํ๋์ง ์๋๋ค.
positional encoding์ ์ฌ์ฉํ์ง ์๋ ๊ฒฝ์ฐ์๋ high-frequency ์ ๋ณด๊ฐ ๋ง์ด ์์ค๋์ด ์ธ๋ฐํ ๋ถ๋ถ์ด ์ ํํ๋์ง ์๋๋ค.
2. Hierarchical Sampling
ray ์์์ ํฌ์ธํธ๋ฅผ ์ด๋ป๊ฒ ์ํ๋งํ๋์ง๋ ์ฑ๋ฅ์ ์ํฅ์ ๋ผ์น๋ค.
ํ๋ฆฌํฐ๋ฅผ ๋์ด๋ ๋ฐฉ๋ฒ์๋ ๋ ๋ง์ sampling์ ์งํํ๋ ๊ฒ์ด ๊ฐ์ฅ ๋จ์ํ ๋ฐฉ๋ฒ์ด์ง๋ง, ๋ ๋๋ง๋ ์ด๋ฏธ์ง์ ๊ธฐ์ฌํ์ง ์๋ ๋ฌผ์ฒด๊ฐ ์๋ ๋ถ๋ถ(free space), ๊ฐ๋ ค์ง ๋ถ๋ถ(occluded region)์ด ๋ฐ๋ณต์ ์ผ๋ก ์ํ๋ง๋ ์ ์์ด ๋นํจ์จ์ ์ด๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ์ํ๋ง์ 2๋ฒ์ ๋๋ ์ํ๋ ๋ฐฉ์์ ์ ์ํ๊ณ , 2๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉฐ
์ฒซ๋ฒ์งธ ๋ชจ๋ธ์ coarse network, ๋๋ฒ์งธ ๋ชจ๋ธ์ fine network๋ผ ํ๋ค.
coarse network๋ ์์์ ์ค๋ช ํ๋ Stratified Sampling ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ์์ ๋ฐ๋ผ bins๋ฅผ ๋๋๊ณ ํด๋น bins ์์์ uniform random sampling์ ํตํด ์ํ๋ง์ ์งํํ ํ, Volume Rendering ์์๊น์ง ๋ชจ๋ ๊ณ์ฐํ๋ค. ์ด๋ ๋ฐ๋๊ฐ์ด ๋์ ์ํ๋ง ์ง์ ์ ์ด๋ค ๋ฌผ์ฒด๊ฐ ์์ ๊ฒ์ผ๋ก ์์๋๋ ์ง์ ์ด ๋๋ฉฐ, ํฝ์ ์ ํํ๋ ํ๋ฅ ์ด ๋์ ์ง์ ์ด๋ผ๊ณ ๋ ํ ์ ์๋ค. ๋ฐ๋ผ์ ์ด ์ง์ ๋ค์ ๋ํด์ ๋ ์ํ๋ง์ ์งํํ๋ค๋ฉด ์ข ๋ ๋ํ ์ผํ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ ๊ฒ์ด๋ผ ์์ ํ๊ณ , ๋๋ฒ์งธ fine network ํ์ต ๊ณผ์ ์ ์งํํ๋ค.
fine network์๋ inverse transform sampling์ผ๋ก ์ํ๋งํ ์ง์ ๋ค๊ณผ ํจ๊ป ์ฒ์ coarse network์์ ์ํ๋งํ๋ ์ง์ ๋ค์ ๋ชจ๋ ํจ๊ป ์ฌ์ฉํ๋ฉฐ, ์ต์ข ๋ ๋๋ง ์์์ ๊ณ์ฐํ๊ฒ ๋๋ค.
Loss
๊ฐ ์ฅ๋ฉด์ ๋ํด ๋ณ๋์ NeRF ํํ ์ ๊ฒฝ๋ง์ ์ต์ ํํ๋ค. ์ด๋ฅผ ์ํด์๋ ์ฅ๋ฉด์ ์บก์ฒ๋ RGB ์ด๋ฏธ์ง, ํด๋น ์นด๋ฉ๋ผ ํฌ์ฆ, intrinsic parameter, ์ฅ๋ฉด ๊ฒฝ๊ณ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์ ๋ง ํ์ํ๋ค.
Loss๋ ๋จ์ํ coarse ๋ ๋๋ง๊ณผ fine ๋ ๋๋ง ๋ชจ๋์ ๋ํด ๋ ๋๋ง๋ ํฝ์ ์์๊ณผ ์ค์ ํฝ์ ์์ ๊ฐ์ ์ด ์ ๊ณฑ ์ค์ฐจ์ด๋ค.
Conclusions
Model
๋ชจ๋ธ์ ์ ๋ ฅ๋๋ ๊ฐ์ ๋ น์, ์ถ๋ ฅ๋๋ ๊ฐ์ ๋นจ๊ฐ์์ผ๋ก ํ์๋์ด ์์ผ๋ฉฐ
๊ฒ์ ์ค์ ํ์ดํ๋ ReLU activation, ์ฃผํฉ์ ์ค์ ํ์ดํ๋ activation์ด ์๊ณ
๊ฒ์์ ์ ์ ํ์ดํ๋ Sigmoid activation์ด ์๋ layer์ด๋ค.
Results
scene ๋น ๋ณ๋์ network๋ฅผ ์ต์ ํํ๋ NV์ SRN์ ๋ํด์๋ ๋ชจ๋ ์์น๊ฐ NeRF๊ฐ ๋ค๋ฅธ ๋ ๋ชจ๋ธ์ ๋ฅ๊ฐํจ์ ๋ณผ ์ ์๋ค.
LLFF๋ Real Forward-Facing ๋ฐ์ดํฐ์ ๊ฒฐ๊ณผ์์ LPIPS ์์น๊ฐ NeRF๋ณด๋ค ๋ ์ข์ง๋ง NeRF์ ์ ์๋ค์ NeRF์ ๊ฒฐ๊ณผ๊ฐ ๋ ๋์ ์ผ๊ด์ฑ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ ๋ ์ ์ artifact๋ฅผ ์์ฑํ๋ค๊ณ ์ธ๊ธํ๋ค.
NeRF๋ ๋ชจ๋ ๋ถ๋ถ์์ ๋ํ ์ผํ ์ ๊น์ง ๋ง๋ค์ด๋์ ๋ณผ ์ ์๋ค.
LLFF์ ๊ฒฝ์ฐ Microphone’s stand์ Material’s object edges์ banding artifact, Ship’s mast์ Lego ๋ด๋ถ์ ghosting artifact๋ฅผ ์์ฑํ๋ค. LLFF๋ ์ ๋ ฅ view ๊ฐ ๊ฐ๊ฒฉ(disparity)๊ฐ 64 ํฝ์ ์ ๋์ง ์๋๋ก “sampling guideline”์ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ view ๊ฐ๊ฒฉ์ด ์ต๋ 400~500 ํฝ์ ์ธ synthetic ๋ฐ์ดํฐ์ ์์ ์ ํํ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ์ถ์ ํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ค๊ณ ํ๋ค.
SRN์ ๋ชจ๋ ๊ฒฝ์ฐ์ ํ๋ฆฟํ๊ณ ์๊ณก๋ ๋ ๋๋ง์ ์์ฑํ๋ค. SRN์ ์ฌํ๊ฒ smoothํ ์ง๊ฐ์ ์์ฑํ๋ฉฐ ํ๋์ ray์์ ๋จ์ผ depth์ color๋ง ์ ํํ๊ธฐ ๋๋ฌธ์ view synthesis๋ฅผ ์ํ ํํ๋ ฅ์ด ์ ํ๋๋ค.
Neural Volumes๋ Microphone’s grille ๋๋ Lego’s gear์ ๋ํ ์ผ์ ์์ฑํ ์ ์์ผ๋ฉฐ, Ship’s rigging์ ๋ํ ๊ธฐํํ์ ๊ตฌ์กฐ๋ฅผ ์์ ํ ์์ฑํ์ง ๋ชปํ๋ค. 1283๊ฐ์ voxel grid๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ช ์๋์ด ์์ด ๊ณ ํด์๋์์ ์์ธํ ๋ํ ์ผ์ ๋ํ๋ด๊ธฐ ์ํด ํ์ฅํ ์ ์๋ ๊ฒ์ด ๋ฌธ์ ๊ฐ ๋๋ค.