当前位置:   article > 正文

Nerf-DS论文精读_nerf论文

nerf论文

1.论文概述

在传统的动态NeRF模型中,一般是将动态场景的帧间移动点从观察空间变形到一个共同的规范空间用于渲染,但是这并没有考虑到变形过程中镜面反射物体颜色的变化。镜面反射物体的颜色不仅依赖于物体本身的属性,还受到其相对于光源和观察者位置的影响。当物体移动时,这些相对位置发生变化,导致反射颜色变化,所以传统的动态NeRF模型对镜面物体的渲染效果极差。
该论文提出了一种重新参数化的动态NeRF模型,该模型通过使用观察空间坐标和表面法线来更好地模拟动态镜面表面。还加入了一个对运动物体的Mask来引导变形场,以改善动态镜面物体的学习,即使在颜色变换的情况下,也能很好的找到时间上的对应关系。
作者收集了一个新的动态镜面数据集,在这个数据集上的实验结果表明,与现有的NeRF模型相比,NeRF-DS显著提高了单目RGB视频中运动镜面物体的重建质量,少了很多渲染伪影。
在这里插入图片描述

2.相关工作

(1) Neural Scene Representation and Rendering

深度学习的成功导致许多工作探索适合3D场景重建和渲染的神经表示,显式的神经表示方法包括point clouds、meshes、voxels,隐式神经表示方法比如有项距离场(SDF),这些方法通常专注于场景的几何重建,并需要额外的纹理神经表示来渲染场景,另一种隐式神经表示是神经辐射场(NeRF)。NeRF直接将场景表示为映射空间坐标和视角到局部点辐射的函数。可微体渲染用于生成场景的新视图。NeRF可以实现仅使用RGB监督和已知相机姿势的照片逼真的新视图合成。NeRF有许多拓展方向,如加速,场景规模,动态场景和镜面渲染。

(2)Dynamic Scene Reconstruction

动态场景中有物体在前景中移动,物体发生变形,或者两者兼有。一个简单的重建方法是将移动的前景和静态的背景分割开来,然后分别进行重建。这种方法假设前景在进行刚性运动状态,不能处理前景物体本身的非刚性变形。一个更通用的方法是预测一个规范空间和一个时间变形场。这些方法中的许多要求RGBD输入或多摄像机输入来解决重建移动物体的模糊问题。
最近的研究基于神经辐射场(NeRF)表示,仅用单目RGB监督就可以联合求解动态场景的规范空间和变形场。这些工作中的规范空间通常是静态场景中的模板NeRF,但HyperNeRF有额外的超坐标输入来建模超规范空间。现有动态NeRF模型的另一个主要区别是将变形场表述为平移场或特殊的欧几里得场。由于NeRF是基于坐标的场景表示,现有的动态NeRF主要关注于用变形场对空间坐标进行变换。它们在变换过程中没有显式考虑物体表面的变化。

(3)Specular Surface Rendering

渲染镜面或反射表面的逼真图像是计算机图形学中最困难的问题之一。这通常需要考虑全局照明,传统上是通过昂贵的算法实现的,如radiosity,光线追踪或光子映射。为了加快渲染速度,通常使用一种称为预计算辐射传递(precomputed radiance transfer, PRT)的技术,在线下环境中预先计算环境图中的光照基函数,并在在线渲染阶段快速汇总。对于镜面表面,可以通过用球面谐波表示反射来实现预计算。
在像NeRF这样的神经表示中,大多数关注镜面表面渲染的工作都遵循预计算的思想。在训练过程中,每个空间点的反射环境映射可以被认为是“预先计算的”。基于原始体积NeRF的一些工作通过体积密度或直接预测来近似所需的表面信息进行预计算。其他基于有符号距离函数(signed distance function)的工作通过有符号距离来近似表面信息。NeRFReN 通过一个掩膜来分开传输和反射的辐射分量,以渲染大型平面反射表面。Ref-NeRF 提出使用多层感知机(MLP)和方向编码进行表面法线平滑,以进一步提高性能。然而,所有现有专注于镜面物体的NeRF工作仅考虑静态场景,而不是动态场景。

3.NeRF D-NeRF

NeRF:

在这里插入图片描述使用多层感知器(MLP)将空间位置 x x x映射到体积密度 σ ( x ) σ(x) σ(x)和输出 b ( x ) b(x) b(x),另一个MLP头接收 b ( x ) b(x) b(x)和观察方向(或出射辐射方向) w 0 w_0 w0来预测该点的颜色 c ( x , ω 0 ) c(x,ω_0) c(x,ω0)[图片]

为了渲染场景图像,从相机中心 o o o对每个像素射线r取N个样本 x i = o − k w 0 x^i = o - kw_0 xi=okw0
像素 C ( r ) C(r) C(r)的颜色是这些采样点颜色的加权和,加权后为基于步长 δ i δ_i δi的累积透射率 α i α_i αi与沿射线的局部体积密度的乘积。
[图片]

[图片]

动态NeRF通过单目RGB相机镜头重建3D动态场景,由于动态场景中的物体可能随时间移动或变形,因此每个场景的时刻只有一帧可用。没有严格的多视图图像,很难重建场景的3D结构。因此,大多数动态NeRFs 将观察空间中的场景在时间 t 变换到一个公共的规范空间,使用一个形变场 T : x → x ′ T : x\rightarrow x' T:xx。利用这个共同的规范空间,不同时间和视角的图像可以用来使用静态NeRF模型 F ( x ′ , w 0 ) F(x',w_0) F(x,w0)重建场景:
[图片]

[图片]

在实践中,观察空间坐标 x x x 和时间嵌入 ϕ t ϕt ϕt 被输入到一个形变场预测MLP中,以预测规范空间坐标 x ′ x' x。HyperNeRF 还使用另一个MLP从 x x x ϕ t ϕt ϕt 预测超规范坐标 $W
$。规范坐标 x ′ x' x W W W 被提供给标准的NeRF MLP以预测体积密度 σ σ σ。标准NeRF MLP的颜色预测头部接收观察方向 w 0 w_0 w0,并输出颜色 c c c。现有的动态NeRFs F ( x ′ , w 0 ) F(x',w_0) F(x,w0) 在渲染动态镜面物体时参数化不足。特别是,颜色还应依赖于观察空间表面法线 n n n 和位置 x x x。为此,我们提议扩展模型为 F ( x ′ , w 0 , x , n ) F(x',w_0,x,n) F(x,w0,x,n).
[图片]

4.NeRF-DS

NeRF-DS解决了动态nerf对动态镜面物体建模的缺点。NeRF- DS(基于在HyperNeRF)包括一个标准NeRF,该NeRF增加了观测空间位置 x x x 和表面法线 n n n 为条件,用以预测观测空间中正确的反射颜色。 x x x 从射线样本中获得,并添加了渐进的位置编码。 n n n 是通过变形在正则空间中预测的表面法向 n ′ n' n 得到的。为了更好地学习镜面的对应关系和变形场,变形场和超坐标预测用运动物体的掩膜 M M M来引导。 M M M由掩膜预测的MLP预测,并由2D真实值监督。
在这里插入图片描述

(1)Surface-Aware Dynamic NeRF

在计算机图形学中,镜面表面的渲染通常基于渲染方程:
[图片]

其中 L 0 ( x , w 0 ) L_0(x,w_0) L0(x,w0)是出射辐射。变量 x x x, w i w_i wi, w 0 w_0 w0, n n n分别表示空间坐标,入射角,出射角,面法线。
第一项 L e ( x , w 0 ) L_e(x,w_0) Le(x,w0)表示目标物体是一个光源时的发射光,第二项是一个反射分量,它根据双向反射分布函数(BRDF) ρ ρ ρ和环境映射 L i L_i Li,将所有入射辐射 w i w_i wi Ω Ω Ω上的反射出射辐射进行积分。
在NeRF(神经辐射场)模型中,辐射的颜色 L 0 ( x , w 0 ) L_0(x,w_0) L0(x,w0)是隐式表示的,而不是从所有反射辐射中显式积分得到的。我们可以将反射分量简化为一个函数 L r ( x , w 0 , n ) L_r(x,w_0,n) Lr(x,w0,n),渲染方程变为:
[图片]

在没有自反射的假设下,反射的颜色全部来自静态环境中的光源或物体。在观测空间中表示式(5)中的空间坐标 x x x、观测方向 w 0 w_0 w0和曲面法向 n n n
在静态场景中,物体的表面不移动,因此在观察空间和规范空间之间没有区别。因此,表面法向 n n n也可以表示为 x x x的函数,用 N ( x ) N(x) N(x)表示。因此,渲染方程简化为:
[图片]

在动态nerf中,运动物体首先从观察空间映射到公共规范空间进行渲染。使用NeRF MLP F ( x ′ , w 0 ) F(x',w_0) F(x,w0)将相同规范空间位置 x ′ x' x和观测方向 w 0 w_0 w0的点渲染为相同的颜色。如式(5)的渲染方程所示,镜面的颜色也取决于观测空间位置 x x x和面法线 n n n, x ′ x' x w 0 w_0 w0相同的点,不同的 x x x n n n可能反射不同的颜色。
在这种情况下,已有的动态NeRF形式为 F ( x ′ , w 0 ) → ( σ , c ) F(x',w_0)\rightarrow(σ,c) F(x,w0)(σ,c),在这种情况下成为欠参数化函数。
图3和图4说明了两种简单的场景,现有的动态NeRF公式在镜面上失效。
[图片]

[图片]

我们引入一个基于方程 L 0 ( x , w 0 ) = L e ( x , w 0 ) + L r ( x , w 0 , n ) = F ( x ′ , w 0 , x , n ) L_0(x,w_0)=L_e(x,w_0)+L_r(x,w_0,n)=F(x',w_0,x,n) L0(x,w0)=Le(x,w0)+Lr(x,w0,n)=F(x,w0,x,n)的表面感知动态NeRF来解决动态NeRF中的参数不足问题。
从观测空间得到的表面信息给予规范NeRF模型以渲染镜面表面颜色。具体来说,我们将观测空间坐标 x x x和表面法线 n n n添加到NeRF颜色预测分支的输入中(图2中的紫色部分),同时保持体积密度预测分支不变.
[图片]

修改后的NeRF函数可以表示为:
[图片]

为了防止模型直接在观测空间中绘制而忽略共享正则空间,按照《Deformable neural radiance fields》中的方法输入观测空间坐标 x x x,位置编码为 γ τ ( x ) γ_τ (x) γτ(x):

[图片]

表面法向 n n n 不能直接从体积模型(如NeRF)中提取。我们首先估计规范空间表面法线 n ‾ ′ \overline{n}' n,通过对体积密度 σ \sigma σ 相对于规范空间坐标 x x x 的负梯度来实现。
[图片]

体积密度 σ \sigma σ 的一阶导数在没有直接监督的情况下是有噪声的。因此,我们使用估计的 n ‾ ′ \overline{n}' n 来监督一个来自NeRF MLP的更平滑的预测表面法线 n ′ n' n,并像在 [51Structured view-dependent appearance for neural radiance fields.] 中那样惩罚任何背向的法线,即:
[图片]

我们使用3D特殊欧几里得群 (SE(3)) $T(x) = [R | t]x $ 作为从观察空间到规范空间的形变场。最后,我们可以将规范空间表面法线 n ′ n' n还原为观察空间表面法线 n n n
[图片]

在正则空间中预测然后翘曲表面法线,确保表面法线随时间的一致性。
两个对应点在t1和t2时刻的表面法线 n 1 n_1 n1 n 2 n_2 n2 n 1 = R 1 T R 2 n 2 n_1=R_1^TR_2n_2 n1=R1TR2n2。最终表面法线的例子如.图5所示:
[图片]

[图片]

(2)Mask Guided Deformation Field

大多数非镜面物体在移动时不会发生剧烈的颜色变化。然而,如方程式 (5) 所示,镜面物体的颜色在不同位置和方向上可以发生显著变化。动态NeRF的形变是仅从RGB监督中学习的。如果同一点的颜色变化太大,几乎无法建立点对应关系。因此,模型经常无法完全学习形变场,如图 6 所示。
[图片]

为了缓解这个问题,我们引入了一个以2D移动物体掩膜为引导的形变场。与镜面表面颜色的剧烈变化不同,这个掩膜在物体运动期间保持一致。它为镜面表面的形变场预测提供了有意义的指导。此外,掩膜对变形预测网络在变形区域有很强的提示作用。
因此,我们增加了一个掩膜预测网络 G : x → M G:x\rightarrow M G:xM ,它在观察空间的每个3D点预测掩膜值。预测的掩膜 M M M 被输入到形变场和超坐标预测网络(图 2 中的蓝色部分)。
[图片]

通过体积渲染使用训练视图中的2D掩膜 M ‾ \overline{M} M对预测的3D掩膜进行监督:
[图片]

掩膜预测比颜色预测更具有歧义性,因为2D掩膜是二进制值。我们鼓励3D掩膜在物体表面附近被预测,使用比 w i w_i wi更尖锐的权重 w i ′ w_i' wi 。它是通过对每个样本 x i = o + k i ω o x_i = o + k_iω_o xi=o+kiωo的权重 w i ′ w_i' wi 应用高斯乘法器计算的。高斯 N N N以最大权重位置 $ k_{max}$ 为中心,并在训练期间标准差 β β β 逐渐减小:
在这里插入图片描述

[图片]

如图 6 所示,以掩膜引导的形变场导致了一个更有意义的形变场预测。
[图片]

我们注意到,这个掩膜是大多数动态NeRF在相机姿态配准中所需的。在结构运动算法中,移动的前景特征必须被掩盖掉以进行正确的配准,因此我们没有向流程中引入额外的输入。
没有这个掩膜的姿势估计可能会有显著较低的准确性,尤其是当移动部分在图像上很大时。例如,在“basin”场景中,没有掩膜估计的相机姿势与原始姿势在使之对齐后偏离了31.7%。在这些姿势上训练的HyperNeRF [34] 在PSNR上表现差6.9%,在LPIPS上表现差82.7%。

5.Experiments

(1)Dynamic Specular Dataset

现有的动态NeRF数据集,例如[22,23,33,34]中使用的场景,几乎没有移动的高光物体。因此,我们收集了一个新的动态镜面数据集进行评估。我们的数据集由日常环境中的8个场景组成,其中包含各种类型的移动或变形的高光物体。每个场景包含两个视频,由两个固定安装在一起的前置摄像头拍摄,类似于[33]中的设置。一台摄像机的镜头用于训练,另一台用于测试。这与[33]中使用的交替训练和测试摄像机不同,这导致了[12]中提到的“不现实的传送摄像机”问题。每个视频包含约500帧。在使用MiVOS[8]生成的掩模后,使用COLMAP[42,43]进行相机配准。这与我们的掩模引导变形场模块中用于掩模预测监督的掩模相同。

(2)Experimental Setups

我们基于上述动态镜面数据集的新视图合成质量来评估模型的性能。使用一个摄像机的视频帧进行训练,模型在另一个摄像机的姿态下生成新的视图图像。将生成的图像与地面真值测试视图图像进行比较,计算以下定量指标:MS-SSIM [53], PSNR, LPIPS[59],如之前的工作[22,34,46]。
报告所有帧的平均分数。
我们将我们的模型与HyperNeRF[34]、Nerfies[33]和Ref-NeRF[51]的基线模型进行比较。HyperNeRF通过引入超坐标实现了最先进的动态NeRF性能。Nerfies是具有标准规范+变形设置的典型动态NeRF模型,并且优于许多具有类似设计的其他模型。Ref-NeRF实现了静态镜面的最先进的重建质量。这三个基线模型很好地代表了用NeRF进行动态和高光场景重建的SOTA性能。
我们的NeRF-DS实现是基于HyperNeRF的。新的掩模预测网络是一个宽度为64的6层MLP。掩码预测的最终输出经历ReLU激活。所有的基线模型和我们的模型都是按照250k次迭代的官方配置进行训练的。所有的训练和渲染都是在480 × 270分辨率下进行的。

(3)Evaluation Results

Qualitative Results

[图片]

在图 7 中展示了新视角合成的定性结果。HyperNeRF和Nerfies模型倾向于重建具有严重几何伪影的动态镜面物体。渲染的物体沿移动轨迹模糊或撕裂。这可以归因于两个原因:1) 模型在没有任何观察空间表面法线和位置信息的情况下难以捕捉镜面颜色。2) 同一点上的镜面物体颜色变化很大,这使得现有的动态NeRF难以学习有意义的变换场。这导致样本点错误地扭曲到错误的位置,从而产生“撕裂”效果。RefNeRF在动态镜面物体上也产生了非常模糊或撕裂的结果。这是因为Ref-NeRF假设所有视频帧的场景都是静态的。由于物体实际上在移动,直接三角测量没有扭曲会失败,从而导致对物体几何的错误预测。我们的NeRF-DS渲染动态镜面场景时几何伪影较少。镜面上反射的颜色也相对准确。有了表面感知的动态NeRF,相同的规范位置可以映射到不同的观察空间位置,反射不同的颜色。移动物体的遮罩指导观察空间中的点学习到规范空间的正确形变映射。因此,NeRF-DS重建的场景没有其他动态NeRF中存在的“撕裂”效果。反射颜色也更准确地受到表面位置和方向的控制。

Quantitative Results.

[图片]

定量结果。与之前的工作[33, 34]中的MS-SSIM和PSNR相比,LPIPS被认为是更好的构建质量度量。在定性评估中,MS-SSIM和PSNR有时不会因为模糊的预测而受到显著影响。如表 1 所示,NeRF-DS在LPIPS评估中显著优于所有基线模型。在大多数场景和整体平均中,NeRF-DS的MS-SSIM和PSNR得分也更好。

Ablation Study

我们评估了我们模型的两个提出的组成部分的贡献:表面感知的动态NeRF,和以遮罩为引导的形变场,通过逐一移除它们。分别标记为没有表面信息和没有遮罩的模型为“NeRF-DS w/o Surface”和“NeRF-DS w/o Mask”。我们在表 1 中报告了定量比较,并在补充材料中报告了定性比较。结果表明,当任一组件被移除时,性能都会下降,这验证了每个组件的贡献。此外,与基线相比,两个消融模型的优越性能进一步支持了我们提出方法的有效性。

6.Limitations

虽然NeRF-DS在重建动态镜面物体方面显著提高了重构质量,但它依赖于准确的表面法线预测。由NeRF预测的表面几何形状可能会因反射纹理而受到误导。预测的表面法线呈现出反射纹理的形状,而不是表面几何的形状。由于缺乏严格的几何约束,这个问题在动态镜面场景中比静态镜面场景更为严重。我们将在未来的工作中探索表面先验或更受约束的形变模型。

7.Conclusion

NeRF-DS扩展了之前的动态NeRF,以更准确地重建和渲染动态镜面场景。引入了表面感知的动态NeRF来解决在规范空间渲染镜面表面的欠参数化问题。我们进一步设计了一个以掩膜为引导的形变场,以在不断变化的颜色下学习更好的对应关系。这两个组件对于在扭曲到规范空间期间模拟反射颜色至关重要。我们的NeRF-DS在动态镜面场景上与之前的动态和反射NeRF相比,实现了更好的合成质量。

8.拓展

作者在GitHub上提到,基于hyperNeRF的NeRF-DS的训练和渲染速度慢,可以应用于最近新提出的TiNeuVox 和K-Planes中用以提高速度。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/563988
推荐阅读
相关标签
  

闽ICP备14008679号