ํฐ์คํ ๋ฆฌ ๋ทฐ
Robust Dynamic Radiance Fields | ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
ํด๋์๊ทธ 2024. 8. 19. 18:28CVPR 2023.
Yu-Lun Liu, Chen Gao ,Andreas Meuleman, Hung-Yu Tseng, Ayush Saraf, Changil Kim, Yung-Yu Chuang, Johannes Kopf, Jia-Bin Huang
Meta | National Taiwan University | KAIST | University of Maryland, College Park
5 Jan 2023
Abstract
Dynamic radiance field reconstruction ๋ฐฉ๋ฒ์ ๋์ ์ฅ๋ฉด์ ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ๊ตฌ์กฐ์ ๋ชจ์์ ๋ชจ๋ธ๋งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด์ Dynamic radiance field reconstruction ๋ฐฉ๋ฒ์ SfM(Structure from Motion) ์๊ณ ๋ฆฌ์ฆ์ ํตํด ์ ํํ ์นด๋ฉ๋ผ ํฌ์ฆ๋ฅผ ์์ ์ ์ผ๋ก ์ถ์ ํ ์ ์๋ค๊ณ ๊ฐ์ ํ๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ SfM ์๊ณ ๋ฆฌ์ฆ์ด ๋งค์ฐ ๋์ ์ธ ๊ฐ์ฒด, ์ง๊ฐ์ด ๋์ ํ๋ฉด ๋ฐ ํ์ ํ๋ ์นด๋ฉ๋ผ ๋ชจ์ ์ด ์๋ ๊น๋ค๋ก์ด ๋น๋์ค์์ ์๋ชป๋ ํฌ์ฆ๋ฅผ ์์ฑํ๊ธฐ ๋๋ฌธ์ ์ ๋ขฐํ ์ ์๋ค.
์นด๋ฉ๋ผ ๋งค๊ฐ๋ณ์(poses and focal length)์ ํจ๊ป static ๋ฐ dynamic radiance fields์ ๊ณต๋์ผ๋ก ์ถ์ ํ์ฌ ์ด๋ฌํ Robustness ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ state-of-the-art dynamic view synthesis methods ๋ฐฉ๋ฒ๋ณด๋ค ์ ๋ฆฌํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
Related work
Dynamic view synthesis.
๋ง์ ์์คํ ์ด ๋ณต์กํ ๊ธฐํํ ์ฅ๋ฉด์ ๋ค๋ฃฐ ์ ์์ผ๋ฉฐ, interactive view manipulation์ ์ ๊ณตํ๊ธฐ ์ํด multi-view์ timesynchronized ์์์ ์ ๋ ฅ์ผ๋ก ์๊ตฌํ๋ค.
์ต๊ทผ์๋ NeRF๋ฅผ ํ์ฅํ์ฌ dynamic scenes๋ฅผ ์ฒ๋ฆฌํ๋ค.
space-time synthesis๋ ๊ฒฐ๊ณผ๊ฐ ์ธ์์ ์ด์ง๋ง, ์ ํํ camera pose๋ฅผ ์ ๋ ฅ์ผ๋ก ์์กดํ๋ค. ์ด๋ฌํ ๊ธฐ์ ์ COLMAP ํน์ SfM systems์ ์ฅ์ ๊ฐ ๋ฐ์ํ๋ ์ด๋ ค์ด ์ฅ๋ฉด์ ์ฌ์ฉํ ์ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ๋ฐฉ๋ฒ์ known camera poses ์์ด ๋ณต์กํ ๋์ ์๋๋ฆฌ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค.
Visual odometry and camera pose estimation.
์ด๋ฏธ์ง ๋ชจ์์์ visual odometry๋ 3D ์นด๋ฉ๋ผ ํฌ์ฆ๋ฅผ ์ถ์ ํ๋ค.
์ด๋ฌํ ๊ธฐ์ ์ photometric consistency๋ฅผ ๊ทน๋ํ ํ๋ ๋ฐฉ๋ฒ๊ณผ
์์ฑ or ํ์ต๋ feature์ ์์กดํ๋ feature-based ๋ฐฉ๋ฒ ๋ ๊ฐ์ง๋ก ๋๋๋ค.
casually captured video์์ ์นด๋ฉ๋ผ ํฌ์ฆ๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ์ด๋ ค์ด ์ผ์ด๋ค.
NeRF ๊ธฐ๋ฐ ๊ธฐ์ ์ ์ ์ ์ํ์ค๋ก ์ ํ๋์ง๋ง, ์ต์ ํ๋ฅผ ์ํด ์ ๊ฒฝ 3D ํํ๊ณผ ์นด๋ฉ๋ผ ํฌ์ฆ๋ฅผ ๊ฒฐํฉํ๋๋ก ์ ์๋์๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ์ ์นด๋ฉ๋ผ ํฌ์ฆ๋ฅผ ์ต์ ํํ๊ณ , ๋์ ๊ฐ์ฒด ๋ชจ๋ธ์ ๋์์ ๋ชจ๋ธ๋งํ๋ค.
Method
3.1 ์น์
์์ Neural radiance fields์ ๋ฐฐ๊ฒฝ๊ณผ ์นด๋ฉ๋ผ ํฌ์ฆ ์ถ์ ๋ฐ ๋์ ์ฅ๋ฉด ํํ์ ํ์ฅ์ ๊ฐ๋ตํ๊ฒ ์๊ฐ.
์น์
3.2์์ ๋ฐฉ๋ฒ์ ๊ฐ์๋ฅผ ์ค๋ช
3.3์ ์ ์ ์ ๋ณต์ฌ ํ๋ ์ฌ๊ตฌ์ฑ์ ํตํด ์นด๋ฉ๋ผ ํฌ์ฆ ์ถ์ ์ ์ธ๋ถ ์ฌํญ์ ๋ํด ๋
ผ์
์น์
3.4์์ ๋์ ์ฅ๋ฉด์ ๋ชจ๋ธ๋งํ๋ ๋ฐฉ๋ฒ
์น์ 3.5์์ ๊ตฌํ ์ธ๋ถ ์ฌํญ ์ค๋ช
3.1 Preliminaries
NeRF.
Neural radiance fields (NeRF)์ $Θ$๋ก ํ๋ผ๋ฏธํฐํ ๋ implicit MLP๋ก ์ ์ ์ธ(static) 3D ์ฅ๋ฉด์ ๋ํ๋ด๊ณ ,
3D ํฌ์ง์ $(x, y, z)$์ ๋งคํ, viewing direction $(θ, ฯ)$๋ฅผ ๋์๋๋ ์ c์ ๋ฐ๋(density) $σ$d์ ๋งคํํ๋ค.
์นด๋ฉ๋ผ ์์ ์์ ๋ฐฉ์ถ๋๋ ray์ ๋ฐ๋ผ ๋ณผ๋ฅจ ๋ ๋๋ง์ ์ ์ฉํ์ฌ ํฝ์ ์์์ ๊ณ์ฐํ ์ ์๋ค.
- $δ(i)$ : ray๋ฅผ ๋ฐ๋ผ ๋ ์ํ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ
- $N$ : ๊ฐ ray ์์ ์ํ ์
- $T(i)$ : ๋์ ๋ ํฌ๋ช ๋
๋ ๋๋ง ๋ ์์ $Cˆ$์ ์ค์ธก ์์ $C$ ์ฌ์ด์ reconstruction ์ค๋ฅ๋ฅผ ์ต์ํํ์ฌ radiance field๋ฅผ ์ต์ ํํ ์ ์๋ค.
Explicit neural voxel radiance fields.
๋ ๋๋ง ์ง์ด ๋ฐ์ด๋์ง๋ง, NeRF ๋ฐฉ๋ฒ์ ๋์ storage ํจ์จ์ฑ์ ์ํด MLP์ ๊ฐ์ implicitํ ํํ์ผ๋ก ์ฅ๋ฉด์ ๋ชจ๋ธ๋งํ๋ค.
์ด๋ฐ ๋ฐฉ๋ฒ์ ๋จ์ ์ ํ๋ จ์๋๊ฐ ๋งค์ฐ ๋๋ฆฌ๋ค๋ ๊ฒ์ด๋ค.
๋จ์ ๊ทน๋ณต์ ์ํด ์ต๊ทผ์ ๋ฐฉ๋ฒ๋ค์ explicit voxels๋ก radiance field๋ฅผ ๋ชจ๋ธ๋ง ํ ๊ฒ์ ์ ์ํ๋ค.
๋งคํ ํจ์๋ฅผ voxel grid๋ก ๋์ฒดํ๊ณ , voxel๋ก๋ถํฐ ์ํ๋ง๋ feature๋ค์ ์ง์ ์ต์ ํ ํ๋ค.
view-dependent ํจ๊ณผ๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด shallow MLP๋ฅผ ์ ์ฉํ๋ค. MLP์ฌ์ฉ๋์ด ์ค์ด๋ค๊ธฐ ๋๋ฌธ์, ํ๋ จ ์๊ฐ์ด ๋ช์๊ฐ์ผ๋ก ๋จ์ถ๋๋ค.
๋ณธ ์ฐ๊ตฌ ๋ํ ์ด๋ฐ ์์ ์์ explicit representation๋ฅผ ์ฌ์ฉํ๋ค.
3.2 Method Overview
N๊ฐ์ ํ๋ ์์ด ์๋ ์ ๋ ฅ ๋น๋์ค ์ํ์ค๊ฐ ์ฃผ์ด์ง๋ฉด, ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ๊ณต๋์ผ๋ก ์นด๋ฉ๋ผ ํฌ์ฆ, focal length(์ด์ ๊ฑฐ๋ฆฌ), static ๋ฐ dynamic Radiance field๋ฅผ ์ต์ ํํ๋ค.
static๊ณผ dynamic ๋ถ๋ถ์ explicit neural voxels $Vs$์ $Vd$๋ก ํํํ๋ค.
Static radiance field
static radiance field๋ ์ ์ ์ฅ๋ฉด์ ์ฌ๊ตฌ์ฑํ๊ณ camera pose์ focal length๋ฅผ ์ถ์ ํ๋ ์ญํ ์ ํ๋ค.
- ์ํ๋ง๋ ์ขํ ์ viewing direction $๋ฅผ ๋ชจ๋ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ๋ฐ๋ $์ ์์ $๋ฅผ ์์ธกํ๋ค.
- ์ ์ ๋ถ๋ถ์ ๋ฐ๋๋ ์๊ฐ๊ณผ viewing direction์ invariantํ๋ฏ๋ก ์ฟผ๋ฆฌ๋ feature์ ํฉ์ ๋ฐ๋๋ก ์ฌ์ฉํ๋ค(MLP๋ฅผ ์ฌ์ฉํ๋ ๋์ ).
- ์ ์ ์์ญ์ ๋ํ loss๋ง ๊ณ์ฐํ๋ฉฐ ๊ณ์ฐ๋ gradient๋ static voxel field์ MLP๋ฟ๋ง ์๋๋ผ ์นด๋ฉ๋ผ ํ๋ผ๋ฏธํฐ์๋ ์ญ๋ฐฉํฅ์ผ๋ก ์ ๋ฌํ๋ค.
Dynamic radiance field
dynamic radiance field๋ ๋น๋์ค์ ์ฅ๋ฉด ์ญํ(์ผ๋ฐ์ ์ผ๋ก ์์ง์ด๋ ๋ฌผ์ฒด์ ์ํด ๋ฐ์)์ ๋ชจ๋ธ๋งํ๋ค.
- ์ํ๋ง๋ ์ขํ์ ์๊ฐ $๋ฅผ ์ฌ์ฉํ์ฌ Canonical space์์ deformed coordinates ๋ฅผ ์ป๋๋ค.
- dynamic voxel field์์ ๋ณํ๋ ์ขํ๋ฅผ ์ฌ์ฉํ์ฌ feature๋ฅผ ์ฟผ๋ฆฌํ๊ณ time index์ ํจ๊ป feature๋ฅผ time-dependent ์์ MLP์ ์ ๋ฌํ์ฌ ๋์ ๋ถ๋ถ์ ์์ $, ๋ฐ๋ $ ๋ฐ nonrigidity $๋ฅผ ์ป๋๋ค.
๋ง์ง๋ง์ผ๋ก ๋ณผ๋ฅจ ๋ ๋๋ง ํ ์ ์ ๋ฐ ๋์ ๋ถ๋ถ์์ RGB image $๊น์ด ๋งต $๋ฅผ nonrigidity mask $์ ํจ๊ป ์ป์ ์ ์๋ค. ์ดํ ํ๋ ์๋ณ reconstruction loss๋ฅผ ๊ณ์ฐํ๋ค. ์ด๋, ํ๋ ์๋ณ loss๋ง ํฌํจํ๋ค.
Canonical space : representative pose๋ฅผ ๊ฐ์ง๋ frame (ex: t=0)
3.3 Camera Pose Estimation
Motion mask generation.
๋น๋์ค์์ ๋์ ์์ญ์ ์ ์ธํ๋ฉด ์นด๋ฉ๋ผ ํฌ์ฆ ์ถ์ ์ด ์์ํด์ง๋ค.
๊ธฐ์กด ๋ฐฉ๋ฒ์ Mask R-CNN๊ณผ ๊ฐ์ instance segmentation ๋ฐฉ๋ฒ์ ํ์ฉํ์ฌ ๊ณตํต ์ด๋ ๊ฐ์ฒด๋ฅผ ๋ง์คํนํ๊ณค ํ๋ค.
๊ทธ๋ฌ๋ ์ ๋ ฅ ๋น๋์ค์์ ๋ฌผ์ด ํ๋ฅด๊ฑฐ๋ ๋๋ฌด๊ฐ ํ๋ค๋ฆฌ๋ ๊ฒ๊ณผ ๊ฐ์ด ํ๋์ฑ์ด ๋ง์ ๊ฐ์ฒด๋ ๊ฐ์ง/๋ถํ ํ๊ธฐ ์ด๋ ต๋ค.
๋ฐ๋ผ์ Mask R-CNN์ mask ์ธ์๋ ์ฐ์ ํ๋ ์์ optical flow์ ์ฌ์ฉํ์ฌ ๊ธฐ๋ณธ ํ๋ ฌ์ ์ถ์ ํ๋ค.
๊ทธ๋ฐ ๋ค์ Sampson distance(๊ฐ ํฝ์ ์์ ์ถ์ ๋ epipolar line๊น์ง์ ๊ฑฐ๋ฆฌ)๋ฅผ ๊ณ์ฐํ๊ณ ์๊ณ๊ฐ์ ์ง์ ํ์ฌ binary motion mask๋ฅผ ์ป๋๋ค. ๋ง์ง๋ง์ผ๋ก Mask R-CNN๊ณผ epipolar distance ์๊ณ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํ์ฌ ์ต์ข motion mask๋ฅผ ์ป๋๋ค.
Coarse-to-fine static scene reconstruction.
๋จผ์ camera pose์ ํจ๊ป static radiance field๋ฅผ ์ฌ๊ตฌ์ฑํ๋ค.
6D camera pose $ ๋ฐ ๋ชจ๋ ์ ๋ ฅ ํ๋ ์์ด ๋์์ ๊ณต์ ํ๋ focal length $๋ฅผ ๊ณต๋์ผ๋ก ์ต์ ํํ๋ค.
๊ธฐ์กด ํฌ์ฆ ์ถ์ ๋ฐฉ๋ฒ๊ณผ ์ ์ฌํ๊ฒ, coarse-to-fine ๋ฐฉ๋ฒ์ผ๋ก static scene representation์ ์ต์ ํํ๋ค.
์ด ๋ฐฉ๋ฒ์ energy surface๊ฐ ๋ ๋ถ๋๋ฌ์์ง๊ธฐ(?) ๋๋ฌธ์ camera pose ์ถ์ ์ ํ์์ ์ด๋ค.
๋ฐ๋ผ์ optimizer๋ sub-optimal solution์ ๊ฐํ ๊ฐ๋ฅ์ฑ์ด ์ ๋ค(๊ทธ๋ฆผ 4(a) vs. ๊ทธ๋ฆผ 4(d)).
Late viewing direction conditioning.
์ฃผ๋ ๊ฐ๋ ์ photometric consistency loss์ด๊ธฐ ๋๋ฌธ์, ์ต์ ํ๋ neural voxel์ ์ฐํํ๊ณ (?) viewing direction์์ ์ถ๋ ฅ ์ํ ์์๊น์ง์ ๋งคํ ํจ์๋ฅผ ์ง์ ํ์ตํ ์ ์๋ค.
๋ฐ๋ผ์, ์์ MLP์ ๋ง์ง๋ง ๋ ์ด์ด์์๋ง viewing direction์ ์ตํฉํ๋๋ก ์ ํํ๋ค. ์ด ์ค๊ณ๋ scene geometry๋ฟ๋ง ์๋๋ผ camera pose๋ ์ฌ๊ตฌ์ฑํ๊ณ ์๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ์ค์ํ๋ค.
Late viewing direction ์กฐ์ ์์ด MLP๋ฅผ ์ต์ ํํจ์ผ๋ก์จ photometric loss๋ฅผ ์ต์ํํ๋ฉด, ์๋ชป๋ camera pose ๋ฐ geometry ์ถ์ ์ ์ด๋ํ ์ ์๋ค(๊ทธ๋ฆผ 4(c)).
Losses.
(a) loss ๊ณ์ฐ์์ ๋์ ์์ญ์ ์ ์ธํ๊ธฐ ์ํด motion mask๋ฅผ ์ฌ์ฉํ๋ค.
(b) scene flow MLP๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๋๋ง๋ ๋ณผ๋ฅจ 3D ํฌ์ธํธ์ 3D ์์ง์์ ๋ชจ๋ธ๋งํ๋ค.
- Reprojection loss : 3D ๋ณผ๋ฅจ ๋ ๋๋ง ํฌ์ธํธ๋ฅผ ์ด์ ํ๋ ์์ ํฌ์ํ์ฌ ์ฌ์ ๊ณ์ฐ๋ flow์ ์ ์ฌํ๋๋ก ์ ๋
- Disparity loss : ์ด์ ํ๋ ์์ ๋ ๋์ํ๋ ํฌ์ธํธ์์ ๋ ๋๋ง๋ ๋ณผ๋ฅจ 3D ํฌ์ธํธ๊ฐ ์ ์ฌํ ๊ฐ์ ๊ฐ์ง๋๋ก ๊ฐ์
- Monocular depth loss : ๋ณผ๋ฅจ ๋ ๋๋ง ๊น์ด์ ์ฌ์ ๊ณ์ฐ๋ MiDaS ๊น์ด ์ฌ์ด์ ์ค์ผ์ผ ๋ฐ shift-invariant loss๋ฅผ ๊ณ์ฐ
์ ์ ์์ญ์์ ์์ธก ์ ์บก์ฒ๋ ์ด๋ฏธ์ง ์ฌ์ด์ photometric loss์ ์ต์ํํ๋ค
- M : motion mask
๋ณต์กํ ์นด๋ฉ๋ผ ๊ถค์ ์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ถ๊ฐ๋ก auxiliary loss๋ฅผ ๋์ ํ์ฌ ํ๋ จ์ ์ ๊ทํํ๋ค.
Conclusions
์ฐ๋ฆฌ๋ ์นด๋ฉ๋ผ ํฌ์ฆ๋ฅผ ์
๋ ฅ์ผ๋ก ์๊ตฌํ์ง ์๊ณ ๋ฌด์ฌ์ฝ ์บก์ฒํ ๋จ์ ๋น๋์ค์ ์๊ณต๊ฐ ํฉ์ฑ์ ์ํ ๊ฐ๋ ฅํ ๋์ ๊ด๋ ํ๋๋ฅผ ์ ์ํฉ๋๋ค.
์ ์๋ ๋ชจ๋ธ ์ค๊ณ๋ฅผ ํตํด ์ฐ๋ฆฌ์ ์ ๊ทผ ๋ฐฉ์์ด ๋ค์ํ ๋์ ์ ์ธ ๋น๋์ค์์ ์ ํํ ๋์ ๊ด๋ ํ๋๋ฅผ ์ฌ๊ตฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
์ฐ๋ฆฌ๋ ์ต์ฒจ๋จ ๊ธฐ์ ๊ณผ ๊ด๋ฒ์ํ ์ ๋์ ๋ฐ ์ ์ฑ์ ๋น๊ต๋ฅผ ํตํด ์ ์๋ ๋ฐฉ๋ฒ์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํฉ๋๋ค.
'AI > ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
- Total
- Today
- Yesterday
- dreambooth
- ์ฝ๋ฉ์๋ฌ
- 2d-gs
- CLOVAX
- gan
- ์คํ ์ด๋ธ๋ํจ์
- gs๋ ผ๋ฌธ
- ํ๋ก๊ทธ๋๋จธ์ค
- ์ปดํจํฐ๋น์
- ๋ ผ๋ฌธ์ฝ๊ธฐ
- MYSQL
- lgaimers
- 3d-gs
- ํ ํฌ์๋ฐ
- ๋๋ฆผ๋ถ์ค
- Paper review
- Gaussian Splatting
- ํ์ด์ฌ์ฝํ
- ๋ ผ๋ฌธ๋ฆฌ๋ทฐ
- AIRUSH2023
- ๋ ผ๋ฌธ
- SQL
- ํ์ด์ฌ
- ์ฝํ ์ค๋น
- Aimers
- C์ธ์ด
- ์ฝ๋ฉ๊ณต๋ถ
- SKTECHSUMMIT
- AI์ปจํผ๋ฐ์ค
- AIRUSH
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |