티스토리 뷰

반응형
ICCV 2023.
Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, Carl Vondrick
Columbia University | Toyota Research Institute
20 Mar 2023

 

Abstract

하나의 RGB image가 주어진 객체의 뷰 포인트를 바꾸기 위한 프레임워크, Zero-1-to-3 제안.
large-scale diffusion 모델의 geometric priors를 활용.
synthetic 데이터셋을 이용해 훈련, 그 외 데이터셋에 대해 zero shot 일반화 기능 유지.
단일 뷰를 3D 뷰로 재구성.

 

Introduction

3D 이미지의 재구성을 위한 기존의 접근들은 3D annotations, category-specific priors에 의존 or stereo views, camera poses 와 같은 기하학 정보를 요구하지만, 이러한 데이터의 규모나 다양성이 적다.

본 논문에서는, zero-shot novel view synthesis와 3D shape reconstruction을 수행하기 위해 대규모 diffusion 모델을 통해 카메라 viewpoint를 제어하는 메커니즘을 소개한다.

단일 RGB image는 제약이 적은 조건이지만, diffusion 모델을 파인튜닝하여 camera correspondences 없이 상대적인 카메라 rotation과 translation에 대한 컨트롤을 학습하게 한다.

이러한 컨트롤을 통해 다른 카메라 viewpoint에 대한 decoding 이미지를 incoding할 수 있다.

 

Method

객체의 단일 RGB 이미지 $ x \in \mathbb{R^{H\times W\times 3}} $ 가 주어지면, 다른 카메라 viewpoint에서 객체의 이미지를 합성하는 것.

$ R \in \mathbb{R^{3\times 3}} $ 과 $ T \in \mathbb{R^{3}} $ 를 원하는 viewpoint의 카메라 rotation과 translation이라고 하면,

카메라 변환에서 새로운 이미지를 합성하는 모델 f를 학습하는 것을 목표로 한다.

$$ \hat{x}_{R,T} = f(x,R,T) $$

 

$ \hat{x}_{R,T} $ 는 합성된 이미지를 나타낸다.

이러한 접근 방식은 stable diffuison과 같은 대규모 diffusion 모델을 이용한다. text 설명에서 이미지를 생성할 때 탁월한 zero shot 성능을 보여주기 때문이다.

 

근데, f를 만들기 위한 두가지 과제가 있다고 함.

1. 대규모 생성 모델이 서로 다른 viewpoint에서 다양한 객체에 대해 학습되지만, viewpoint 간의 correspondences가 명시적으로 encode되지 않는다.

2. 이미지의 정면 시점 bias가 반영되어 있다.

 

3.1 Learning to Control Camera Viewpoint

camera extrinsic을 제어하는 메커니즘을 pre-trained diffusion model이 학습할 수 있도록 하여 새로운 view를 합성하게 한다.

위 그림에서 한 쌍의 이미지와 relative camera extrinsic $ {{(x, x_{(R,T)},R,T)}} $ 의 데이터셋이 주어지면, pre-trained diffuison model을 fine-tuning 한다.

인코더 $ \varepsilon $, denoiser U-Net $ \epsilon _{\theta } $, 디코더 $ {D} $ 를 가지는 latent diffusion 아키텍처를 사용한다.

diffusion Time step $ t \sim  [1,1000] $ 에서 $ c(x,R,T) $ 를 입력 view와 relative camera extrinsic의 임베딩이라 하면,

모델을 fine-tuning하기 위해 다음 목적 함수를 해결한다.

$$ \underset{\theta }{min}  \mathbb{E}_{z\sim \varepsilon (x),t,\epsilon \sim N(0,1)}\parallel \epsilon -\epsilon _{\theta }(z_{t},t,c(x,R,T))\parallel _{2^{\cdot }}^{2} $$

 

모델 $ \epsilon _{\theta } $ 가 학습된 후, 추론 모델 $ f $는 $ c(x,R,T) $ 를 조건으로 Gaussian noise 이미지에서 반복적인 denoising을 수행하여 이미지를 생성할 수 있다.

이 fine-tuning을 통해 diffuison model은 viewpoint 제어가 있는 경우를 제외하고, 사실적인 이미지를 생성하는 능력을 유지할 수 있다.

이 compositionality은 모델에 zero-shot 능력을 부여하고, 최종 모델이 3D assets 부족 & fine-tuning set에 나타나지 않은 객체 클래스에 대한 새로운 view를 합성할 수 있게 한다.

 

3.2 View-Conditioned Diffusion

단일 이미지에서 3D 재구성하려면 low-level perception (깊이, 음영, 질감 등)과 high-level understanding (유형, 기능, 구조 등)가 모두 필요하다.

 

hybrid conditioning mechanism :

1) 입력 이미지의 CLIP 임베딩에 $(R,T)$를 concat 하여 "posed CLIP" 임베딩 $c(x,R,T)$를 형성한다. 

    U-Net에 Cross-attention을 적용하여 컨디셔닝 => 입력 이미지의 high-level semantic 정보를 제공하게 한다.

2) Input image를 denoising process에 channel-concatenate  Identity 및 detail 유지한다.

    Classifier-free guidance를 적용할 수 있도록 InstructPix2Pix에서 제안된 유사한 메커니즘을 따라 입력 이미지와 포즈를 취한 CLIP 임베딩을 null 벡터로 랜덤하게 설정하고 inference 중에 조건부 정보를 스케일링한다.

 

 

3.3 3D Reconstruction

개체의 새로운 view를 합성하는 것 뿐만 아니라, 개체의 모양과 형상을 모두 캡쳐하는 완전한 3D 재구성이 필요하다.

Score Jacobian Chaining (SJC)의 framework를 적용하여 text-to-image diffusion model의 prior로 3D 표현을 최적화한다.

DreamFusion에서 영감을 얻은 SJC에서 사용되는 중요한 기술은 classifier-free guidance 값을 평소보다 훨씬 높게 설정하는 것이다. 이 방법론은 각 샘플의 다양성을 감소시키지만 재구성의 충실도를 향상시킨다.

SJC와 유사하게 viewpoints을 랜덤으로 샘플링하고 volumetric rendering을 수행한다. 그 다음 결과 이미지를 Gaussian noise $ \epsilon \sim N(0,1) $로 교란시키고, 입력 이미지 $x$, posed CLIP 임베딩 $c(x,R,T)$, time step $t$로 조건화 된 $ U-Net  \epsilon _{\theta } $을 적용하여 denoise한다.

 

$$\triangledown L_{SJC}= \triangledown I_{\pi }logp_{\sqrt{2}\epsilon  }(x_{\pi })$$

$\triangledown L_{SJC}$는 SJC에서 도입된 PAAS score이다.

MSE Loss로 input view를 최적화,

NeRF representation을 정규화하기 위해 모든 sampled viewpoint에 depth smoothness loss를 적용,

near-view consistency loss를 추가하여 주변 view사이의 모양 변화 정규화.

 

3.4 Dataset

80만개 이상의 3D 모델을 포함하는 대규모 오픈 소스 데이터셋 $ Objaverse $ 을 fine-tuning에 사용했다.

데이터셋의 각 개체에 대해 12개의 camera extrinsics matrices $M$을 무작위로 샘플링하고, ray-tracing engine으로 12개의 view를 랜더링하여 이미지 쌍 $(x,x_{R,T})$를 만든다.

 

Experiments

zero-shot 새로운 view 합성 및 3D 재구성에 대한 모델 성능 평가.

본 논문에서 사용한 데이터셋과 이미지는 $Objaverse$ 데이터셋의 외부에 있으므로, zero-shot 결과로 간주할 수 있음.

 

Novel view synthesis

기존의 방식과 다르게 새로운 view 합성 -> 3D 재구성의 순서를 따르기 때문에, 입력 이미지에 묘사된 객체의 동일성을 유지할 수 있음.

물체 주변을 회전할 때, self-occlusion으로 인한 aleatoric uncertainty를 확률적 생성 모델로 모델링 가능.

 

3D Reconstruction

SJC 혹은 DreamFusion과 같은 stochastic 3D reconstruction framework를 적용하여 3D 표현 가능.

 

[Novel view synthesis Results]

Novel view synthesis on Google Scanned Objects
Novel view synthesis on Google Scanned Objects

 

 

실제 이미지에 대한 View 합성 결과

 

 

 

[3D reconstruction Results]

Google Scanned Objects에 대한 단일 View 3D 재구성 결과

 

Qualitative examples of 3D reconstructio

3D 재구성의 정성적 예시

 

[Novel View Synthesis from Dall-E-2 Generated Images]

Dall-E-2로 생성된 이미지에 대한 새로운 view 합성 결과

 

Discussion

본 논문에서는 단일 이미지 새로운 view 합성과 3D 재구성을 위한 접근 방식인 Zero-1-to-3를 제안.

 

Future Works

complex backgrounds을 가진 장면에 대한 일반화

동적 장면의 기하학 구조에 대한 단일 view 추론

 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형