赞
踩
系列论文 https://github.com/yenchenlin/awesome-NeRF
视频与演示 https://www.matthewtancik.com/nerf
Core:使用完全连通(非卷积)的深度网络来表示场景,通过使用稀疏的输入视图集来优化底层的连续体积场景函数,从而获得用于合成复杂场景的新视图。查询相机光线上的5D坐标来合成视图,并使用经典的体绘制技术将输出的颜色和密度投影到图像中。建立5D矢量值函数的输入是3D位置x=(x,y,z)和2D观察方向(θ,φ),它的输出是发射的颜色c=(r,g,b)和体积密度σ。通过限制网络只预测作为位置x的函数的体积密度σ,同时允许预测作为位置和观察方向的函数的RGB颜色c,来激励多视点一致性表现。
通过使用稀疏的输入视图集来优化底层的连续体积场景函数,从而获得用于合成复杂场景的新视图的最先进的结果。算法使用完全连通(非卷积)的深度网络来表示场景,其输入是单个连续的5D坐标(空间位置(x,y,z)和观察方向(θ,φ)),其输出是该空间位置的体积密度和依赖于视图的发射辐射。我们通过查询相机光线上的5D坐标来合成视图,并使用经典的体绘制技术将输出的颜色和密度投影到图像中。
由于体积渲染是自然可分化的,因此唯一需要优化的输入表示是一组具有已知相机姿态的图像.我们描述了如何有效地优化神经辐射场,以渲染具有复杂几何形状和外观的场景的光逼真新颖视图,并展示了优于先前神经渲染和视图合成工作的结果。视图合成结果最好以视频的形式观看。
Keywords:scene representation, view synthesis, image-based rendering, volume rendering, 3D deep learning
在这项工作中,我们以一种新的方式解决了长期存在的视图合成问题,通过直接优化连续5D场景表示的参数来最小化绘制一组捕获图像的误差。
我们将静态场景表示为一个连续的5D函数,该函数输出空间中每个点(x,y,z)在每个方向(θ,φ)上发射的辐射度,以及每个点处的密度,该密度类似于微分不透明度控制通过(x,y,z)的每个点累积了多少辐射。我们的方法通过从单个5D坐标(x,y,z,θ,φ)回归到单个体积密度和视点相关的rgb颜色来优化没有任何卷积层(通常称为多层感知器或mlp)的深度全连接神经网络来表示该函数。渲染此神经辐射场(NERF)从特定的观点来看,我们:1)使相机光线穿过场景以生成一组采样的3D点,2)使用这些点及其对应的2D观察方向作为神经网络的输入以产生一组颜色和密度的输出,以及3)使用经典的体绘制技术将这些颜色和密度累积到2D图像中。因为这个过程是自然可微的,我们可以使用梯度描述来优化这个模型,通过最小化每个观察到的图像和相应的视图之间的距离来表示当前的状态。通过多视角最小化误差可以鼓励网络预测该场景的一致性模型,该模型通过将高容量密度和高精度颜色分配给 包含真是场景潜在内容的位置。
我们发现,针对复杂场景优化神经辐射场表示的基本实现并没有收敛到足够高的分辨率表示,并且在每个摄像机光线所需的采样数方面效率低下。我们通过使用位置编码转换输入5D坐标来解决这些问题,该位置编码使MLP能够表示更高频率的函数,并且我们提出了分层采样过程来减少充分采样这种高频场景表示所需的查询数。
我们的方法继承了体积表示的优点:两者都可以表示复杂的现实世界的几何和外观,并且非常适合使用投影图像进行基于梯度的优化。关键的是,我们的方法旨在克服在高分辨率下建模复杂场景时,离散体素网格的存储成本过高的问题。主要贡献:
1.提出了一种将具有复杂几何和材料的连续场景表示为5维神经辐射场的方法,并将其参数化为基本的MLPS网络。
2.一个基于经典体积渲
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。