论文文献阅读-CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields_diet nerf

作者：小小林熬夜学编程 | 2024-04-18 16:55:01

踩

diet nerf

信息

研究人员是来自香港中文大学的王灿
Title：CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields
Paper：https://arxiv.org/pdf/2112.05139v1
Code：https://cassiepython.github.io/ clipnerf/

简介

提出了第一个统一文本和图像驱动的NeRF编辑框架CLIP-NERF，使得用户可以使用文本提示或示例图像对3D内容进行灵活编辑；
设计两个CLIP映射器来指导形状和外观的变化；
前馈代码映射器比之前的基于优化的编辑方法速度更快；
提出反向优化方法使得可以从现有真实图像数据改变形状和外观代码。

方法

整体训练框架
请添加图片描述

训练一个解纠缠的条件nerf：

a. 输入：位置编码、观测方向、 $Z_{s}$ (shape code)、 $Z_{a}$ (appearance code)；
b. 输出：渲染后的image；
c. 变形场： $Z_{a}$ 通过该场控制体积变化；
CLIP驱动：
a. 输入：相关的image/文本提示；
b. 输出： $\Delta Z_{s}$ 、 $\Delta Z_{a}$ ；
c. CLIP image/text encoder：提取相关的特征输入mappers中去学习 $Z_{s}$ 和 $Z_{a}$ 的改变。

Conditional NeRF

请添加图片描述 $F_{\theta}$ ：MLP学习到的一个函数映射

input：5D坐标— $\boldsymbol{x}(x,y,z)$ + $\boldsymbol{v}(\phi,\theta)$ ； $z_{a}$ + $z_{s}$ ;
output：密度 $\sigma$ +颜色 $\boldsymbol{c}(r,g,b)$ ；
$\gamma(\cdot)$ ：位置编码-升维的作用（原来的x和v为数低）。

Disentangled Conditional NeRF

如何理解这个解耦条件？
解耦是一个常被提到的技术术语，它直译过来就是“把一模一样的东西分离开来”或“使其相互不受影响”，但实际上更深刻的含义是：把系统中不同的部分分离开来，使它们之间可以互相独立地运行，互不干扰，不被任何不必要的部分影响到。
在这里可以理解为：条件nerf公式1中 $z_{a}$ 和 $z_{s}$ 都可以影响颜色的变化，而我们需要使得 $z_{a}$ 只控制颜色， $z_{s}$ 只控制形状，让这两部分分离开，互相独立不受干扰。

Conditional Shape Deformation

不直接操作 $z_{s}$ 来控制形状，文章提出一个Shape Deformation $\tau：(\boldsymbol{x},z_{s})\to\Delta \boldsymbol{x}$ 对应位置编码 $\Gamma(\boldsymbol{x})$ ，尽量保留原始shape细节。
变形的位置编码： $\Gamma^{*}(\boldsymbol{p},z_{s})=\lbrace \gamma^{*}(p,\Delta{p})| p\in\boldsymbol{p},\Delta{p}\in\tau(\boldsymbol{p},z_{s}) \rbrace$ : 请添加图片描述其中 $tanh(\cdot)\in[-1, 1]$ ，限制变化量在-1到1之间；这样使得 $z_{s}$ 控制 $\Delta \boldsymbol{x}$ 进而控制位置编码，最后间接控制了全局的shape。