Robust Dynamic Radiance Fields

티스토리 뷰

AI/논문 리뷰 Paper Review

Robust Dynamic Radiance Fields | 논문 리뷰

해드위그 2024. 8. 19. 18:28

CVPR 2023.
Yu-Lun Liu, Chen Gao ,Andreas Meuleman, Hung-Yu Tseng, Ayush Saraf, Changil Kim, Yung-Yu Chuang, Johannes Kopf, Jia-Bin Huang
Meta | National Taiwan University | KAIST | University of Maryland, College Park
5 Jan 2023

Abstract

Dynamic radiance field reconstruction 방법은 동적 장면의 시간에 따라 변하는 구조와 모양을 모델링하는 것을 목표로 한다. 그러나 기존의 Dynamic radiance field reconstruction 방법은 SfM(Structure from Motion) 알고리즘을 통해 정확한 카메라 포즈를 안정적으로 추정할 수 있다고 가정한다. 이러한 방법은 SfM 알고리즘이 매우 동적인 객체, 질감이 나쁜 표면 및 회전하는 카메라 모션이 있는 까다로운 비디오에서 잘못된 포즈를 생성하기 때문에 신뢰할 수 없다.

카메라 매개변수(poses and focal length)와 함께 static 및 dynamic radiance fields을 공동으로 추정하여 이러한 Robustness 문제를 해결할 수 있다.

본 논문의 결과는 state-of-the-art dynamic view synthesis methods 방법보다 유리한 성능을 보여준다.

Related work

Dynamic view synthesis.

많은 시스템이 복잡한 기하학 장면을 다룰 수 없으며, interactive view manipulation을 제공하기 위해 multi-view와 timesynchronized 영상을 입력으로 요구한다.

최근에는 NeRF를 확장하여 dynamic scenes를 처리한다.

space-time synthesis는 결과가 인상적이지만, 정확한 camera pose를 입력으로 의존한다. 이러한 기술은 COLMAP 혹은 SfM systems에 장애가 발생하는 어려운 장면에 사용할 수 없다.

본 논문에서 제안하는 방법은 known camera poses 없이 복잡한 동적 시나리오를 처리할 수 있다.

Visual odometry and camera pose estimation.

이미지 모음에서 visual odometry는 3D 카메라 포즈를 추정한다.

이러한 기술은 photometric consistency를 극대화 하는 방법과

생성 or 학습된 feature에 의존하는 feature-based 방법 두 가지로 나뉜다.

casually captured video에서 카메라 포즈를 추정하는 것은 어려운 일이다.

NeRF 기반 기술은 정적 시퀀스로 제한되지만, 최적화를 위해 신경 3D 표현과 카메라 포즈를 결합하도록 제안되었다.

본 논문의 방법은 카메라 포즈를 최적화하고, 동적 객체 모델을 동시에 모델링한다.

Method

3.1 섹션에서 Neural radiance fields의 배경과 카메라 포즈 추정 및 동적 장면 표현의 확장을 간략하게 소개.
섹션 3.2에서 방법의 개요를 설명
3.3절의 정적 복사 필드 재구성을 통해 카메라 포즈 추정의 세부 사항에 대해 논의
섹션 3.4에서 동적 장면을 모델링하는 방법

섹션 3.5에서 구현 세부 사항 설명

3.1 Preliminaries

NeRF.

Neural radiance fields (NeRF)은 $Θ$로 파라미터화 된 implicit MLP로 정적인(static) 3D 장면을 나타내고,

3D 포지션 $(x, y, z)$에 매핑, viewing direction $(θ, ϕ)$를 대응되는 색 c와 밀도(density) $σ$d에 매핑한다.

카메라 원점에서 방출되는 ray에 따라 볼륨 렌더링을 적용하여 픽셀 색상을 계산할 수 있다.

- $δ(i)$ : ray를 따라 두 샘플 점 사이의 거리

- $N$ : 각 ray 위의 샘플 수

- $T(i)$ : 누적된 투명도

렌더링 된 색상 $Cˆ$와 실측 색상 $C$ 사이의 reconstruction 오류를 최소화하여 radiance field를 최적화할 수 있다.

Explicit neural voxel radiance fields.

렌더링 질이 뛰어나지만, NeRF 방법은 높은 storage 효율성을 위해 MLP와 같은 implicit한 표현으로 장면을 모델링한다.

이런 방법의 단점은 훈련속도가 매우 느리다는 것이다.

단점 극복을 위해 최근의 방법들은 explicit voxels로 radiance field를 모델링 할 것을 제안한다.

매핑 함수를 voxel grid로 대체하고, voxel로부터 샘플링된 feature들을 직접 최적화 한다.

view-dependent 효과를 사용하기 위해 shallow MLP를 적용한다. MLP사용량이 줄어들기 때문에, 훈련 시간이 몇시간으로 단축된다.

본 연구 또한 이런 작업에서 explicit representation를 사용한다.

3.2 Method Overview

N개의 프레임이 있는 입력 비디오 시퀀스가 주어지면, 우리의 방법은 공동으로 카메라 포즈, focal length(초점 거리), static 및 dynamic Radiance field를 최적화한다.

static과 dynamic 부분을 explicit neural voxels $Vs$와 $Vd$로 표현한다.

Static radiance field

static radiance field는 정적 장면을 재구성하고 camera pose와 focal length를 추정하는 역할을 한다.

샘플링된 좌표 와 viewing direction $를 모두 입력으로 받아 밀도 $와 색상 $를 예측한다.
정적 부분의 밀도는 시간과 viewing direction에 invariant하므로 쿼리된 feature의 합을 밀도로 사용한다(MLP를 사용하는 대신).
정적 영역에 대한 loss만 계산하며 계산된 gradient는 static voxel field와 MLP뿐만 아니라 카메라 파라미터에도 역방향으로 전달한다.

Dynamic radiance field

dynamic radiance field는 비디오의 장면 역학(일반적으로 움직이는 물체에 의해 발생)을 모델링한다.

샘플링된 좌표와 시간 $를 사용하여 Canonical space에서 deformed coordinates 를 얻는다.
dynamic voxel field에서 변형된 좌표를 사용하여 feature를 쿼리하고 time index와 함께 feature를 time-dependent 얕은 MLP에 전달하여 동적 부분의 색상 $, 밀도 $ 및 nonrigidity $를 얻는다.

마지막으로 볼륨 렌더링 후 정적 및 동적 부분에서 RGB image $깊이 맵 $를 nonrigidity mask $와 함께 얻을 수 있다. 이후 프레임별 reconstruction loss를 계산한다. 이때, 프레임별 loss만 포함한다.

Canonical space : representative pose를 가지는 frame (ex: t=0)

3.3 Camera Pose Estimation

Motion mask generation.

비디오에서 동적 영역을 제외하면 카메라 포즈 추정이 수월해진다.

기존 방법은 Mask R-CNN과 같은 instance segmentation 방법을 활용하여 공통 이동 객체를 마스킹하곤 했다.

그러나 입력 비디오에서 물이 흐르거나 나무가 흔들리는 것과 같이 활동성이 많은 객체는 감지/분할하기 어렵다.

따라서 Mask R-CNN의 mask 외에도 연속 프레임의 optical flow을 사용하여 기본 행렬을 추정한다.

그런 다음 Sampson distance(각 픽셀에서 추정된 epipolar line까지의 거리)를 계산하고 임계값을 지정하여 binary motion mask를 얻는다. 마지막으로 Mask R-CNN과 epipolar distance 임계값의 결과를 결합하여 최종 motion mask를 얻는다.

Coarse-to-fine static scene reconstruction.

먼저 camera pose와 함께 static radiance field를 재구성한다.

6D camera pose $ 및 모든 입력 프레임이 동시에 공유하는 focal length $를 공동으로 최적화한다.

기존 포즈 추정 방법과 유사하게, coarse-to-fine 방법으로 static scene representation을 최적화한다.

이 방법은 energy surface가 더 부드러워지기(?) 때문에 camera pose 추정에 필수적이다.

따라서 optimizer는 sub-optimal solution에 갇힐 가능성이 적다(그림 4(a) vs. 그림 4(d)).

Late viewing direction conditioning.

주된 감독은 photometric consistency loss이기 때문에, 최적화는 neural voxel을 우회하고(?) viewing direction에서 출력 샘플 색상까지의 매핑 함수를 직접 학습할 수 있다.

따라서, 색상 MLP의 마지막 레이어에서만 viewing direction을 융합하도록 선택한다. 이 설계는 scene geometry뿐만 아니라 camera pose도 재구성하고 있기 때문에 매우 중요하다.

Late viewing direction 조정 없이 MLP를 최적화함으로써 photometric loss를 최소화하면, 잘못된 camera pose 및 geometry 추정을 초래할 수 있다(그림 4(c)).

Losses.

(a) loss 계산에서 동적 영역을 제외하기 위해 motion mask를 사용한다.

(b) scene flow MLP를 사용하여 렌더링된 볼륨 3D 포인트의 3D 움직임을 모델링한다.

Reprojection loss : 3D 볼륨 렌더링 포인트를 이웃 프레임에 투영하여 사전 계산된 flow와 유사하도록 유도
Disparity loss : 이웃 프레임의 두 대응하는 포인트에서 렌더링된 볼륨 3D 포인트가 유사한 값을 가지도록 강제
Monocular depth loss : 볼륨 렌더링 깊이와 사전 계산된 MiDaS 깊이 사이의 스케일 및 shift-invariant loss를 계산

정적 영역에서 예측 와 캡처된 이미지 사이의 photometric loss을 최소화한다

M : motion mask

복잡한 카메라 궤적을 처리하기 위해 추가로 auxiliary loss를 도입하여 훈련을 정규화한다.

Conclusions

우리는 카메라 포즈를 입력으로 요구하지 않고 무심코 캡처한 단안 비디오의 시공간 합성을 위한 강력한 동적 광량 필드를 제시합니다.
제안된 모델 설계를 통해 우리의 접근 방식이 다양한 도전적인 비디오에서 정확한 동적 광량 필드를 재구성할 수 있음을 보여줍니다.
우리는 최첨단 기술과 광범위한 정량적 및 정성적 비교를 통해 제안된 방법의 효과를 검증합니다.

저작자표시 (새창열림)

'AI > 논문 리뷰 Paper Review' 카테고리의 다른 글

2D Gaussian Splatting for Geometrically Accurate Radiance Fields \| 논문 리뷰 (0)	2024.09.01
3D Gaussian Splatting for Real-Time Radiance Field Rendering \| 논문 리뷰 (0)	2024.08.22
Zero-1-to-3: Zero-shot One Image to 3D Object \| 논문 리뷰 (0)	2024.08.13
NeRF \| 논문 리뷰 (0)	2024.05.25
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (0)	2024.05.21

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

글 보관함

🌍 Hello World :D

티스토리 뷰