赞
踩
最近辐射场方法彻底改变了多图/视频场景捕获的新视角合成。然而取得高视觉质量仍需神经网络花费大量时间训练和渲染,同时最近较快的方法都无可避免地以质量为代价。对于无边界的完整场景(而不是孤立的对象)和 1080p 分辨率渲染,目前没有任何方法能达到实时显示率。我们引入了三个关键元素,使得能够达到sota视觉质量同时保证有竞争力的训练时间,而且重要的是可以高质量、实时( ≥ 30 f p s \ge 30 fps ≥30fps)、1080p分辨率的情况下新视角合成。首先,从摄像机校准过程中产生的稀疏点开始,我们用三维高斯来表示场景,既保留了用于场景优化的连续容积辐射场的理想特性,又避免了在空白空间进行不必要的计算;其次,我们对三维高斯进行交错优化/密度控制,特别是优化各向异性协方差(scale & rotation),以实现对场景的精确呈现;第三,我们开发了一种快速可见性感知渲染算法,它支持各向异性拼接,既能加快训练速度,又能进行实时渲染。我们在几个已建立的数据集上展示了最先进的视觉质量和实时渲染。
网格和点是最常见的三维场景表示,因为它们是明确的,并且非常适合于快速的基于GPU/CUDA的光栅化(rasterization)。相比之下,最近的神经辐射场(NeRF)方法建立在连续的场景表示上,通常通过体积射线行进优化多层感知器(MLP),用于捕获场景的新视角合成。同样地,迄今为止最有效的辐射场解决方案是通过插值连续表示中存储的值,例如体素[Fridovich-Keil和Yu等,2022年]或哈希[Müller等,2022年]网格或点[Xu等,2022年]。尽管这些方法的连续性有助于优化,但渲染所需的随机采样是昂贵的,并可能导致噪音。我们引入了一种新方法,结合了两者的优势:我们的三维高斯表示允许使用最先进的视觉质量和竞争性训练时间进行优化,而我们的tile-based splatting解决方案确保了1080p分辨率下几个先前发布的数据集的SOTA质量的实时渲染(参见图1)。
我们的方法实现了辐射场的实时渲染,质量与以前质量最高的方法[Barron等人,2022年]相等,同时仅需要与最快的先前方法[Fridovich-Keil和Yu等人,2022年;Müller等人,2022年]相竞争的优化时间。这种性能的关键是一种新颖的3D高斯场景表示,结合实时可微分渲染器,显著加快了场景优化和新视角合成的速度。需要注意的是,在与InstantNGP [Müller等人,2022年]相当的训练时间内,我们的质量与他们的类似;虽然这是他们达到的最高质量,但通过训练51分钟,我们实现了最先进的质量,甚至略优于Mip-NeRF360 [Barron等人,2022年]。(吐槽:怎么感觉最后越说越牵强呢……有我写论文的感觉——只要限定范围足够小我就是最牛的
我们的目标是允许实时渲染多张照片捕获的场景,并在典型真实场景的优化时间内创建表示,速度与最有效的先前方法相当。近期的方法实现了快速训练[Fridovich-Keil等;Müller等],但难以达到当前SOTA NeRF方法获得的视觉质量,即Mip-NeRF360[Barron等人,2022年],该方法需要长达48小时的训练时间。快速但质量较低的辐射场方法可以在不同的场景下实现交互式渲染时间(每秒10-15帧),但无法满足高分辨率的实时渲染要求。哎呀反正就说大家都不行就我最牛了
我们的解决方案基于三个主要组成部分。首先,我们引入了3D高斯作为灵活且表现力强的场景表示。我们从先前的类似NeRF的方法中采用相同的输入,即由Structure-from-Motion(SfM,我帮同学完成作业时碰巧做过这个实验只用同一物体的多视角图片就能得到三维点云,相当cheap了,就是我做的效果极差)[Snavely等人,2006年]校准的相机,并使用SfM过程中简易(原文居然用free?)产生的稀疏点云初始化3D高斯集。与大多数需要多视图立体匹配(MVS)数据[Aliev等人,2020年;Kopanas等人,2021年;Rückert等人,2022年]的基于点的解决方案不同,我们仅使用SfM点作为输入即可实现高质量的结果。需要注意的是,在NeRF合成数据集中,我们的方法即使进行随机初始化也能实现高质量(意思是不用训练了?)。我们证明了3D高斯是一个很好的选择,因为它们是可微的体积表示,但也可以通过将它们投影到二维并应用标准
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。