ํฐ์คํ ๋ฆฌ ๋ทฐ
Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields | ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
ํด๋์๊ทธ 2024. 9. 17. 17:14CVPR 2024.
Shijie Zhou, Haoran Chang, Sicheng Jiang, Zhiwen Fan, Zehao Zhu, Dejia Xu, Pradyumna Chari, Suya You, Zhangyang Wang, Achuta
KadambiUniversity of California | University of Texas at Austin | DEVCOM ARL
6 Dec 2023
Introduction
Feature 3DGS๋ 3D-GS ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ต์ด์ feature field distillation(๋ถ๋ฆฌ!!) ๊ธฐ์ ์ ์ ์ํ๋ ๋ ผ๋ฌธ์ด๋ค.
3DGS ํ๋ ์์ํฌ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ฐ Gaussian์์ semantic feature์ joint ํ์ต์ ์ง์ํ์ง ์๋๋ค. (semantic feature : object ๋ณ๋ก ๊ตฌ๋ถ๋ ํน์ง)
๋ณธ ๋ ผ๋ฌธ์์๋ ์์ ์ ๋ณด ์ธ์๋ ๊ฐ 3D Gaussian์ semantic feature๋ฅผ ํ์ตํ ๊ฒ์ ์ ์ํ๊ณ , ๊ทธ ํ 2D foundation model์ ์ฌ์ฉํ feature field์ ์ถ์ถ์ ํตํด segmentation์ ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
Method
High-dimensional Semantic Feature Rendering
3D Gaussian์ด radiance field์ feature field๋ฅผ ๋ชจ๋ explicitํ๊ฒ ํํํ ์ ์๋๋ก ํ๋ high-dimensional segmentic feature ๋ ๋๋ง ๋ฐ feature field distillation์ ์ํ ์๋ก์ด ํ์ดํ๋ผ์ธ์ ๋์ ํ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ ์ด๋ฉฐ ๋ชจ๋ 2D foundation model๊ณผ ํธํ๋ ์ ์๋ค.
๋ค์ํ ์ข ๋ฅ์ 2D foundation model์ ๋์ฒํ๊ธฐ ์ํด ์์์ ํฌ๊ธฐ์ ์์์ feature ์ฐจ์์ 2D feature map์ ๋ ๋๋งํ ์ ์์ด์ผ ํ๋ค.
1. ์ด๋ฅผ ์ํด 3DGS์ ๋ ๋๋ง ํ์ดํ๋ผ์ธ์ Structure from Motion์ ์ฌ์ฉํ์ฌ Gaussian์ ์ด๊ธฐํํ๋ค.
2. ๊ธฐ์กด์ Gaussian ์์ฑ์ semantic feature f์ ํตํฉํ๋ค.
3. feature map์ ๊ฐ ํฝ์ ์ ๊ฐ Fs๋ฅผ ๊ณ์ฐํ๋ค.
์ฌ๊ธฐ์ N์ ์ฃผ์ด์ง ํฝ์ ๊ณผ ๊ฒน์น๋ ์ ๋ ฌ๋ Gaussian ์งํฉ์ด๊ณ , T๋ ํฌ๊ณผ์จ์ด๋ค.
Fs์ ์๋ ์ฒจ์ s๋ “student”๋ฅผ ๋ํ๋ด๋ฉฐ, ์ด๋ ๋ ๋๋ง๋ feature๊ฐ “teacher” feature FtFt์ ์ํด ํฝ์ ๋จ์๋ก supervise๋จ์ ๋ํ๋ธ๋ค.
Ft๋ 2D foundation model์ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ground truth ์ด๋ฏธ์ง๋ฅผ ์ธ์ฝ๋ฉํ์ฌ ์ป์ latent ์๋ฒ ๋ฉ์ด๋ค.
๋ณธ์ง์ ์ผ๋ก ๋ฏธ๋ถ ๊ฐ๋ฅํ ๋ณผ๋ฅจ ๋ ๋๋ง์ ํตํด ๋๊ท๋ชจ 2D teacher model์ ์์ 3D student explicit ์ฅ๋ฉด ํํ ๋ชจ๋ธ๋ก ์ถ์ถํ๋ค๊ณ ๋ณผ ์ ์๋ค.
4. Rasterization ๋จ๊ณ์์๋ RGB ์ด๋ฏธ์ง์ feature map์ ๋ ๋ฆฝ์ ์ผ๋ก rasterizationํ๋ ๊ฒ์ด ์๋๋ผ ๊ฐ์ด ์ต์ ํํ๋ค. ์ด๋ฏธ์ง์ feature map ๋ชจ๋ ๋์ผํ ํ์ผ ๊ธฐ๋ฐ rasterization ์ ์ฐจ๋ฅผ ์ฌ์ฉํ๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉด feature map์ ์ถฉ์ค๋๊ฐ RGB ์ด๋ฏธ์ง์ ์ถฉ์ค๋๋งํผ ๋๊ฒ ๋ ๋๋ง๋์ด ํฝ์ ๋น ์ ํ๋๊ฐ ์ ์ง๋๋ค.
Optimization and Speed-up
Loss function์ photometric loss์ feature loss์ ๊ฒฐํฉ์ด๋ค.
Ft(I) ๋ 2D foundation model์์ ์ป์ ground truth ์ด๋ฏธ์ง I์ ๋ํ feature map์ด๊ณ , Fs(^I) ๋ ๋ ๋๋ง๋ feature map์ด๋ค.
ํฝ์ ๋น L1 loss ๊ณ์ฐ์ ๋ํด ๋์ผํ ํด์๋ H×W๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด bilinear interpolation์ ์ ์ฉํ์ฌ Fs(^I)์ ํฌ๊ธฐ๋ฅผ ์ ์ ํ๊ฒ ์กฐ์ ํ๋ค. ์ค์ ๋ก γ=1.0γ=1.0, λ=0.2λ=0.2๋ฅผ ์ฌ์ฉํ๋ค.
๋ ๋๋ง๋ feature map Fs(^I)∈R H×W×N๊ณผ teacher feature map Ft(I)∈R H×W×M ์ฌ์ด์ ์ฐจ์ด๋ฅผ ์ต์ํํ๊ธฐ ์ํด ์ด์์ ์ผ๋ก๋ N=M ์ผ๋ก ์ต์ํํ๋ค. ๊ทธ๋ฌ๋ 2D foundation model์ ๋์ latent ์ฐจ์์ผ๋ก ์ธํด (LSeg๋ M=512M=512, SAM์ M=256M=256) ์ค์ ๋ก M์ ๋งค์ฐ ํฐ ์์ด๋ฏ๋ก, ์ด๋ฌํ ๊ณ ์ฐจ์ feature map์ ์ง์ ๋ ๋๋งํ๋ ๋ฐ ๋ง์ ์๊ฐ์ด ์์๋๋ค.
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด rasterization ํ๋ก์ธ์ค ๋ง์ง๋ง์ ์๋ ํฅ์(speed up) ๋ชจ๋์ ๋์ ํ๋ค.
์ด ๋ชจ๋์ kernel size 1×11×1๋ก feature ์ฑ๋์ ์ ์ํ๋งํ๋ lightweight convolution decoder๋ก ๊ตฌ์ฑ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์์์ NโชM์ ์ฌ์ฉํ์ฌ f∈RN์ ์ด๊ธฐํํ๊ณ , ์ด ํ์ต ๊ฐ๋ฅํ ๋์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ feature ์ฑ๋์ ์ผ์น์ํค๋ ๊ฒ์ด ๊ฐ๋ฅํ๋ค.
์ด๋ฅผ ํตํด ๋ค์ด์คํธ๋ฆผ task์ ์ฑ๋ฅ์ ์ ํ์ํค์ง ์์ผ๋ฉด์ ์ต์ ํ ํ๋ก์ธ์ค์ ์๋๋ฅผ ํฌ๊ฒ ๋์ผ ์ ์๋ค.
* Photometric loss
: ์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ ๋๋ง ์ด๋ฏธ์ง ๊ฐ ํฝ์ ๊ฐ ์ฐจ์ด๋ฅผ ์์ค๋ก ์ฌ์ฉ
* D-SSIM์ SSIM์ ๊ธฐ๋ฐ์ผ๋ก ํ ์์ค ํจ์
: ๋ ์ด๋ฏธ์ง์ ๋ฐ๊ธฐ(ํฝ์ ๊ฐ ํฌ๊ธฐ), ๋๋น(์ธ์ ํฝ์ ๊ฐ ์ฐจ์ด),v๊ตฌ์กฐ(ํฝ์ ๊ฐ ๋ถํฌ๊ธฐ๋ฐ correlation)๋ฅผ ์ด์ฉํด ๋ ์ด๋ฏธ์ง์ ์ ์ฌ๋๋ฅผ ๊ณ์ฐ
Promptable Explicit Scene Representation
๊ตฌ์ฒด์ ์ผ๋ก ์ ์๋ค์ SAM(Segment Anything model)๊ณผ LSeg๋ผ๋ ๋ ๊ฐ์ง ๊ธฐ๋ณธ ๋ชจ๋ธ์ ๊ณ ๋ คํ์๋ค.
SAM์ ํน์ task์ ๋ํ ํ์ต ์์ด๋ 2D์์ promptable/promptless zero-shot segmentation์ด ๊ฐ๋ฅํ๋ค.
LSeg๋ zero-shot semantic segmentation์ ์ธ์ด ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ๋์ ํ์๋ค.
LSeg๋ (DPT ์ํคํ ์ฒ๊ฐ ํฌํจ๋ )์ด๋ฏธ์ง feature ์ธ์ฝ๋์ CLIP์ ํ ์คํธ ์ธ์ฝ๋๋ฅผ ํ์ฉํ์ฌ ํ ์คํธ-์ด๋ฏธ์ง ์ฐ๊ฒฐ์ 2D ํฝ์ ๋ ๋ฒจ๋ก ํ์ฅํ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ ์ถ์ถ๋ feature field๋ฅผ ์ฌ์ฉํ์ฌ ์ , ์์, ํ ์คํธ์ ์ํด ํ๋กฌํํ ๋๋ ๋ชจ๋ 2D ๊ธฐ๋ฅ์ 3D ์์ญ์ผ๋ก ํ์ฅํ์๋ค.
Promptableํ explicit ์ฅ๋ฉด ํํ์ ๋ค์๊ณผ ๊ฐ์ด ์๋ํ๋ค.
ํ๊ฒ ํฝ์ ๊ณผ ๊ฒน์น๋ N๊ฐ์ ์ ๋ ฌ๋ 3D Gaussian ์ค, x์ ๋ํ ํ๋กฌํํธ τ์ activation score๋ feature space์ ์ฟผ๋ฆฌ q(τ)์ semantic feature f(x) ์ฌ์ด์ ์ฝ์ฌ์ธ ์ ์ฌ๋์ softmax๋ก ๊ณ์ฐ๋๋ค.
Score๊ฐ ๋ฎ์ Gaussian๋ค์ ํํฐ๋ง ํ๊ณ , ์์ c(x)์ ๋ถํฌ๋ช ๋ α(x)๋ฅผ ์ ๋ฐ์ดํธํ์ฌ ๋ฌผ์ฒด ์ถ์ถ, ๋ฌผ์ฒด ์ ๊ฑฐ, ์ธํ ๋ณํ ๋ฑ ๋ค์ํ ์์ ์ ํ ์ ์๋ค.
Experiments
Novel view semantic segmentation
Replica ๋ฐ์ดํฐ์ &LLFF ๋ฐ์ดํฐ์
novel view semantic segmentation ๊ฒฐ๊ณผ ๋น๊ต
Segment Anything from Any View

๋ค์์ NeRF-DFF์ novel view segmentation ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ ๊ฒ์ด๋ค. (SAM)
Language-guided Editing
NeRF-DFF์ ์ธ์ด ๊ธฐ๋ฐ ํธ์ง ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ ๊ฒ์ด๋ค.
'AI > ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
- Total
- Today
- Yesterday
- 2d-gs
- ํ ํฌ์๋ฐ
- ๋๋ฆผ๋ถ์ค
- Gaussian Splatting
- ํ์ด์ฌ
- ํ์ด์ฌ์ฝํ
- CLOVAX
- Paper review
- ์ฝํ ์ค๋น
- ์ฝ๋ฉ๊ณต๋ถ
- MYSQL
- gan
- SQL
- AIRUSH2023
- SKTECHSUMMIT
- gs๋ ผ๋ฌธ
- dreambooth
- C์ธ์ด
- 3d-gs
- lgaimers
- ์คํ ์ด๋ธ๋ํจ์
- ๋ ผ๋ฌธ์ฝ๊ธฐ
- ํ๋ก๊ทธ๋๋จธ์ค
- AIRUSH
- Aimers
- ์ปดํจํฐ๋น์
- ๋ ผ๋ฌธ๋ฆฌ๋ทฐ
- ๋ ผ๋ฌธ
- AI์ปจํผ๋ฐ์ค
- ์ฝ๋ฉ์๋ฌ
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |