当前位置:   article > 正文

清华最新3DGS综述!紧跟新视图渲染高速发展的步伐

3dgs+diffusion

作者 | Tong Wu  编辑 | 3D视觉之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心三维重建技术交流群

本文只做学术分享,如有侵权,联系删文

写在前面&笔者的个人理解

3DGS的出现大大加快了新视图合成的渲染速度。与神经辐射场(NeRF)等用位置和视点条件神经网络表示3D场景的神经隐式表示不同,3D GS利用一组高斯椭球来对场景进行建模,因此可以通过将高斯椭球光栅化为图像来实现高效渲染。除了快速渲染速度外,3D GS的显式表示还方便了动态重建、几何编辑和物理模拟等编辑任务。

考虑到该领域的快速变化和越来越多的工作,我们对最近的3D GS方法进行了文献综述,按功能大致可分为3D重建、3D编辑和其他下游应用。为了更好地理解这一技术,还介绍了传统的基于点的渲染方法和三维高斯散射的渲染公式。这项调查旨在帮助初学者快速进入该领域,并为经验研究人员提供全面的概述,这可以刺激3D GS表示的未来发展。

bf7c1ad0e95fcb27301cc3b568277117.png

(大拇指往上滑,点击最上方的卡片关注我,整个操作只会花你 1.328 秒,然后带走未来、所有、免费的干货,万一有内容对您有帮助呢~

也欢迎加入【3D视觉之心】全栈技术交流群

b4bd21d715e3851d98b4ca34361b49ad.png




Gaussian Splatting for 3D Reconstruction

Point-based Rendering

基于点的渲染技术旨在通过渲染一组离散的几何图元来生成逼真的图像。Grossman和Dally提出了基于纯点表示的点渲染技术,其中每个点只影响屏幕上的一个像素。Zwicker建议渲染飞溅(椭球),而不是渲染点,这样每个飞溅可以占据多个像素,并且它们之间的相互重叠可以比纯基于点的表示更容易地生成无孔图像。后来,一系列的飞溅方法旨在通过引入纹理过滤器来增强它的抗锯齿渲染,提高渲染效率,并解决不连续的着色问题。有关传统基于点的渲染技术的更多详细信息,请参阅。

传统的基于点的渲染方法更多地关注如何使用给定的几何体生成高质量的渲染结果。随着最近隐式表示的发展,研究人员已经开始探索在没有任何给定几何体的情况下使用神经隐式表示进行基于点的渲染以用于3D重建任务。一个代表性的工作是NeRF,它用隐式密度场对几何体进行建模,并用另一个外观场预测视图相关的颜色ci。基于点的渲染通过以下方式组合相机光线上所有采样点的颜色以生成像素颜色C:

824a96c11114b8f42268f04d7e05b4ef.png

为了加快训练和渲染速度,3D Gaussian Splatting放弃了神经网络,直接优化高斯椭球体,而不是使用神经网络预测所有采样点的密度值和颜色,高斯椭球体附加了位置P、旋转R、比例S、不透明度α和表示视景相关颜色的球面谐波系数(SH)等属性。像素颜色由从给定视点投影到其上的高斯椭球决定。三维高斯椭球的投影可以公式化为:

a6a96d06074241d841ca9d078da520cf.png

3DGS与NeRF共享相似的渲染过程,但它们之间有两个主要区别:

  • (1)3DGS直接对不透明度值进行建模,而NeRF将密度值转换为不透明度值。

  • (2)3DGS使用基于光栅化的渲染,该渲染不需要采样点,而NeRF需要在3D空间中进行密集采样。

在没有采样点和查询神经网络的情况下,3DGS变得非常快,并在普通设备上实现了~30 FPS,渲染质量与NeRF相当。

Quality Enhancement

尽管产生了高质量的重建结果,但3DGS的渲染仍有改进空间。MipSplating观察到,改变采样率,例如焦距,会引入高频高斯形状的伪影或强膨胀效应,从而极大地影响渲染图像的质量。为了消除高频高斯类形状伪影,MipSplating将3D表示的频率约束为低于由训练图像确定的最大采样频率的一半。此外,为了避免膨胀效应,它在投影的高斯椭球上引入了另一个2D Mip滤波器,以近似于类似于EWA Splatting的box滤波器。MS3DGS还旨在解决原始3DGS中的混叠问题,并引入了多尺度 GS表示,当以新的分辨率级别渲染场景时,它从不同的尺度级别选择高斯来生成无混叠图像。

除了混叠问题,渲染视图相关效果的能力也需要改进。为了产生更忠实的视图相关效果,VDGS提出用类NeRF神经网络代替原始3DGS中的球面谐波(SH)系数对3DGS进行建模,以表示3D形状并预测视图相关的颜色和不透明度等属性。Scaffold GS提出初始化体素网格,并将可学习特征附加到每个体素点上,高斯的所有属性都由插值特征和轻量级神经网络确定。StopThePop没有改变依赖于视图的外观建模方法,而是指出,由于每射线深度排序,3DGS往往会通过弹出3D高斯来欺骗依赖于视图效果,这会导致在旋转视点时结果不太可靠。为了减少弹出3D高斯的可能性,StopThePop将每射线深度排序替换为基于tile的排序,以确保局部区域的排序顺序一致。

6e80a5915e380f605dbb187939625f67.png

为了更好地指导3D高斯散射的增长,GaussianPro引入了一种渐进传播策略,通过考虑相邻视图之间的法线一致性并添加平面约束来更新Gaussians,如图3所示。为了处理更复杂的阴影,如镜面反射和各向异性分量,Spec Gaussian提出利用各向异性球面高斯来近似3D场景的外观。不同重建方法的定量结果可以在表1中找到。基于3DGS的方法和基于NeRF的方法是可比较的,但是基于3DGS方法具有更快的渲染速度。

10905254939793f5008da1863b32446c.png

Compression and Regularization

尽管3D高斯散射实现了实时渲染,但在较低的计算要求和更好的点分布方面仍有改进空间。一些方法侧重于更改原始表示以减少计算资源。

矢量量化是信号处理中的一种传统压缩方法,涉及将多维数据聚类为有限的表示集,主要用于高斯变换。C3DGS采用残差矢量量化(R-VQ)来表示几何属性,包括缩放和旋转。SASCGS利用向量聚类将颜色和几何属性编码到两个码本中,并使用灵敏度感知的K-Means方法。如图4所示,EAGLES量化了所有属性,包括颜色、位置、不透明度、旋转和缩放,它们表明,在新的视图合成任务中,不透明度的量化会导致更少的floater或视觉伪影。Compact3D不会量化不透明度和位置,因为共享它们会导致高斯重叠。由于对位置的后续光栅化精度的敏感性,LightGaussian在G-PCC中对位置属性采用了基于八叉树的无损压缩。SOGS采用了与矢量量化不同的方法。它们将高斯属性排列到多个二维网格中。对这些网格进行排序,并应用平滑正则化来惩罚与2D网格上的局部邻域相比具有非常不同值的所有像素。

362b6be165280f7af90c3de96612885e.png

在磁盘数据存储方面,SASCGS利用熵编码方法DEFLATE,该方法利用LZ77算法和霍夫曼编码的组合来压缩数据。SOGS使用JPEG XL压缩RGB网格,并使用zip压缩将所有其他属性存储为32位OpenEXR图像。压缩后的3D场景的定量重建结果和大小如表2所示。

5b3bf61550cc38a43764cb4660419356.png

Dynamic 3D Reconstruction

与NeRF表示相同,3DGS也可以用于重建动态场景。动态3DGS的核心在于如何对高斯属性值随时间的变化进行建模。最简单的方法是在不同的时间步长为3D高斯分配不同的属性值。然而,逐帧离散定义缺乏连续性,这可能导致长期跟踪结果不佳。因此,引入了基于物理的约束,即三种正则化损失,包括短期局部刚性和局部旋转相似性损失以及长期局部等距损失。然而,这种方法仍然缺乏帧间相关性,并且对于长期序列需要高的存储开销。因此,分解空间和时间信息,并分别用规范空间和变形场对其进行建模,已成为另一个探索方向。规范空间是静态3DGS,那么问题就变成了如何对变形场进行建模。一种方法是使用MLP网络来隐式拟合它,类似于动态NeRF。杨遵循这一想法,并提出将位置编码的高斯位置和时间步长t输入到MLP,MLP输出3D高斯的位置、旋转和缩放的偏移。但是,不准确的位姿可能会影响渲染质量。这在NeRF的连续建模中并不重要,但离散3DGS可以放大这个问题,尤其是在时间插值任务中。因此,他们将线性衰减的高斯噪声添加到编码的时间向量中,以改善时间平滑,而无需额外的计算开销。一些结果如图5所示。4D-GS采用多分辨率HexPlane体素来编码每个3D高斯的时间和空间信息,而不是位置编码,并针对不同的属性使用不同的压缩MLP。对于稳定训练,它首先优化静态3DGS,然后优化由MLP表示的变形场。在将MLP预测的德尔塔值相加后,GauFRe将指数运算和归一化运算分别应用于缩放和旋转,确保了方便合理的优化。由于动态场景包含较大的静态部分,它将点云随机初始化为动态点云和静态点云,并对其进行相应的优化,然后将其渲染在一起,以实现动态部分和静态部分的解耦。

6f3a725022f8be89179736ca7bba4594.png

与NeRF相比,3DGS是一种显式表示,隐式变形建模需要大量的参数,这可能会带来过拟合,因此也提出了一些显式变形建模方法,以确保快速训练。Katsumata建议使用傅立叶级数来拟合高斯位置的变化,其灵感来自于人类和关节物体的运动有时是周期性的。旋转近似为线性函数。其他属性随时间保持不变。因此,动态优化就是对傅立叶级数和线性函数的参数进行优化,并且参数的数量与时间无关。这些参数函数是关于时间的连续函数,确保了时间的连续性,从而确保了新视图合成的鲁棒性。除了图像损失之外,还引入了双向光流损失。多项式拟合和傅立叶近似分别在平滑运动和剧烈运动建模方面具有优势。因此,高斯流在时域和频域上结合这两种方法来捕捉属性的时间相关残差,称为双域变形模型(DDDM)。位置、旋转和颜色会随着时间的推移而变化。为了防止均匀时间划分引起的优化问题,本文采用了自适应时间步长缩放。最后,优化在静态优化和动态优化之间迭代,引入了时间平滑损失和KNN刚性损失。

还有一些其他的方法可以探索。4DGS将场景的时空视为一个整体,并将3D高斯变换为4D高斯,即将高斯上定义的属性值变换为4D空间。例如,缩放矩阵是对角线的,因此在对角线上添加时间维度的缩放因子形成4D空间中的缩放矩阵。球面谐波(SH)的4D扩展可以表示为SH与1D基函数的组合。SWAGS根据运动量将动态序列划分为不同的窗口,并在不同的窗口、不同的规范空间和变形场中训练单独的动态3DGS模型。变形场使用可调MLP,它更侧重于对场景的动态部分进行建模。最后,微调使用重叠帧来添加约束,以确保窗口之间的时间一致性。MLP是固定的,并且在微调期间仅对规范表示进行优化。

这些动态建模方法可以进一步应用于医学领域,例如用于婴儿和新生儿运动分析的无标记运动重建,其引入了额外的面罩和深度监督,以及单目内窥镜重建。表3中报告了代表性的基于NeRF和基于3DGS的方法的定量重建结果。与基于NeRF的方法相比,基于3DGS的方法具有明显的优势,因为它们的显式几何表示可以更容易地对动力学建模。

3D Reconstruction from Challenging Inputs

虽然大多数方法都在相对较小的场景中对具有密集视点的常规输入数据进行实验,但也有针对性地重建具有挑战性输入的3D场景的工作,如稀疏视图输入、没有相机参数的数据和城市街道等较大场景。FSGS是第一个探索从稀疏视图输入重建3D场景的系统。它从SfM方法初始化稀疏高斯,并通过对现有高斯进行去极化来识别它们。为了实现忠实的几何重建,额外的预训练2D深度估计网络有助于监督渲染的深度图像。SparseGS还通过引入预训练的2D网络估计的深度输入,从稀疏视图输入中进行3D重建。它进一步去除了深度值不正确的高斯,并利用分数蒸馏采样(SDS)损失来鼓励从新视点渲染的结果更加忠实。GaussainObject使用视觉外壳初始化Gaussians,并微调预先训练的ControlNet修复通过向Gaussianss的属性添加噪声生成的退化渲染图像,这优于先前基于NeRF的稀疏视图重建方法,如图6所示。

2f7905481cf23f9655c72a7f7d670c72.png

向前迈进一步,pixelSplat在没有任何数据先验的情况下,从单视图输入重建3D场景。它提取类似于PixelNeRF的像素对齐图像特征,并使用神经网络预测每个高斯的属性。SplatterImage也适用于单视图数据,但使用U-Net网络将输入图像转换为高斯图上的属性。它可以通过扭曲操作聚合来自不同视点的预测高斯,扩展到多视点输入。

对于城市场景数据,PVG使高斯的平均值和不透明度值与时间相关的函数集中在相应的高斯寿命峰值(随时间的最大突出度)。DrivingGaussian通过首先增量优化静态三维高斯,然后将其与动态对象的三维高斯合成来重建动态驾驶数据。这一过程也得到了分割任何东西模型和输入激光雷达深度数据的帮助。StreetGaussians使用静态3DGS对静态背景进行建模,并通过动态3DGS对动态对象进行建模,其中通过跟踪车辆姿态对Gaussianss进行变换,并使用与时间相关的球面谐波(SH)系数对其外观进行近似。为了便于3DGS方法对城市场景进行比较,GauU Scene提供了一个覆盖1.5平方公里的大规模数据集。

Gaussian Splatting for 3D Editing

Geometry Editing

在几何方面,GaussianEditor使用来自所提出的高斯语义跟踪的文本提示和语义信息来控制3DGS,这实现了 GS的3D修复、对象移除和合成。高斯分组在SAM和3D空间一致性约束的2D掩模预测的监督下,同时重建和分割开放世界的3D对象,这进一步实现了多种编辑应用,包括具有高质量视觉效果和时间效率的3D对象移除、修复和合成。此外,Point'n Move将交互式场景对象操作与曝光区域修复相结合。由于3DGS的显式表示,提出了双阶段自提示掩模传播过程,将给定的2D提示点转移到3D掩模分割,从而获得用户友好的编辑体验和高质量的效果。尽管上述方法实现了对3DGS的编辑,但它们仍然局限于对3D对象的一些简单编辑操作(移除、旋转和平移)。SuGaR通过正则化表面上的高斯,从3DGS表示中提取显式网格。此外,它依赖于基于变形网格的高斯参数的手动调整来实现所需的几何编辑,但难以进行大规模变形。SC-GS学习了一组用于3D场景动力学的稀疏控制点,但面临着激烈运动和详细表面变形的挑战。GaMeS引入了一种新的基于GS的模型,该模型结合了传统网格和普通GS。显式网格作为输入,并使用顶点对高斯分量进行参数化,可以在推理过程中通过改变网格分量实时修改高斯。但是,它无法处理显著的变形或更改,尤其是大面上的变形,因为它无法在训练过程中更改网格拓扑。尽管上述方法可以完成一些简单的刚性变换和非刚性变形,但它们在编辑效果和大规模变形方面仍面临挑战。

Appearance Editing

在外观方面,GaussianEditor提出,类似于之前的NeRF编辑工作Instruction-NeRF2NeRF,首先在由最近的2D分割模型生成的掩蔽区域中使用扩散模型通过语言输入来修改2D图像,并再次更新Gaussians的属性。另一项名为GaussianEditor的独立研究工作也有类似的操作,但它进一步引入了分层 GS(HGS),以允许像对象修复一样进行3D编辑。

fb3ede895ba95b3e2b68b5362617895d.png

为了能够更容易地控制纹理和照明,研究人员已经开始解开纹理和照明以实现独立编辑。如图8所示,GS-IR和RelightableGaussian分别对纹理和照明进行建模。在每个高斯上定义额外的材料参数以表示纹理,并且通过可学习的环境图来近似照明。GIR和GaussianShader通过将材料参数绑定到3D高斯上共享相同的解纠缠范式,但为了处理更具挑战性的反射场景,它们向高斯添加了法线方向约束,类似于Ref-NeRF。在纹理和光照解纠缠后,这些方法可以独立地修改纹理或光照,而不会影响其他方法。

Physical Simulation

在基于物理的3DGS编辑中,如图9所示,PhysGaussian使用来自3DGS的离散粒子云,通过高斯核的连续变形进行基于物理的动力学和照片逼真度渲染。GS结合了3DGS和基于位置的动力学(PBD)来管理渲染、视图合成和固体/流体动力学。与高斯着色器类似,法线应用于每个高斯内核,以使其方向与曲面法线对齐,并改进PBD模拟,还允许基于物理的渲染增强流体上的动态曲面反射。VR-GS是一个具有物理动力学意识的交互式虚拟现实 GS系统,解决了实时编辑高保真虚拟内容的困难。VR-GS利用3DGS来缩小生成的3D内容和手工制作的3D内容之间的质量差距。通过利用基于物理的动力学,增强沉浸感,提供精确的交互和操纵可控性。

dc5639c911f1cfe42750aa0a3606d0be.png

Gaussian Splatting的应用

Segmentation and Understanding

开放世界3D场景理解是机器人、自动驾驶和VR/AR环境的一个重要挑战。随着SAM及其变体在2D场景理解方面取得的显著进展,现有的方法试图将语义特征(如CLIP/DINO)集成到NeRF中,以处理3D分割、理解和编辑。

基于NeRF的方法由于其隐式和连续表示而具有计算密集性。最近的方法试图将2D场景理解方法与3D高斯相结合,以产生实时且易于编辑的3D场景表示。大多数方法利用SAM来生成输入多视图图像的语义掩码,或者提取每个像素的密集语言特征CLIP/DINO。

Legaussian为每个Gaussian添加了一个不确定性值属性和语义特征向量属性。然后,它从给定的角度绘制了一个具有不确定性的语义图,以与地面实况图像的量化CLIP和DINO密集特征进行比较。为了实现视图之间的2D掩模一致性,高斯分组使用DEVA来传播和关联来自不同视点的掩模。它将“身份编码”属性添加到三维高斯图中,并渲染身份特征图以与提取的二维遮罩进行比较。

Geometry Reconstruction and SLAM

几何重建和SLAM是三维重建中的重要子任务。

Geometry reconstruction:在NeRF的背景下,一系列工作成功地从多视图图像中重建了高质量的几何体。然而,由于3DGS的离散性,只有少数作品涉足这一领域。SuGaR是从具有3DGS表示的多视图图像构建3D表面的开创性工作。它引入了一种简单但有效的自正则化损失,以约束相机和最近的高斯之间的距离应尽可能接近渲染深度图中相应像素的深度值,这有助于3DGS和真实3D表面之间的对齐。另一项工作NeuSG选择将先前基于NeRF的表面重建方法NeuS纳入3DGS表示中,以将表面特性转移到3DGS。更具体地说,它鼓励高斯的有符号距离值为零,并且3DGS和NeuS方法的法线方向尽可能一致。

SLAM:还存在3DGS方法,其目标是同时定位相机和重建3D场景。GS-SLAM提出了一种自适应的3D高斯扩展策略,将新的3D高斯添加到训练阶段,并删除具有捕获深度和渲染不透明度值的不可靠的3D高斯。为了避免重复致密化,SplaTAM为高斯使用与视图无关的颜色,并创建致密化掩模,通过考虑当前高斯和新帧的捕获深度来确定新帧中的像素是否需要致密化。为了稳定SLAM,GaussianSplattingSLAM和GaussianSLAM在高斯尺度上增加了额外的尺度正则化损失,以鼓励各向同性高斯。为了更容易初始化,LIV GaussMap使用LiDAR点云初始化高斯,并为全局地图构建可优化大小的自适应体素网格。SGS-SLAM通过提取可以使用2D分割方法获得或由数据集提供的2D语义信息,在同时定位和映射过程中进一步考虑高斯语义信息。我们在表4中报告了不同SLAM方法对重建任务的定量结果。3DGS提供的显式几何表示能够灵活地重新投影,以减轻不同视点之间的错位,从而与基于NeRF的方法相比,实现更好的重建。

98e1ab30a45357213e6f219a550ad716.png

Digital Human

已经以各种方式探索了用隐式表示学习虚拟人,特别是对于NeRF和SDF表示,它们从多视图图像中表现出高质量的结果,但计算成本很高。由于3DGS的高效率,研究工作蓬勃发展,并将3DGS推向了数字人类创作。

Human body:在全身建模中,作品旨在从多视图视频中重建动态人类。D3GA首先使用可驱动的3D高斯和四面体笼来创建可动画化的人类化身,这实现了有前景的几何和外观建模。为了捕捉更多的动态细节,SplatArmor利用两个不同的MLP来预测建立在SMPL和规范空间上的大型运动,并允许所提出的SE(3)场产生与姿势相关的效果,从而实现更详细的结果。HuGS使用线性混合蒙皮和基于局部学习的细化创建了一个从粗到细的变形模块,用于基于3DGS构建和动画化虚拟人化身。它以20 FPS的速度实现了最先进的人类神经渲染性能。类似地,HUGS利用三平面表示来分解规范空间,这可以在30分钟内从单眼视频(50100帧)中重建人和场景。由于3DGS学习了大量的高斯椭球,HiFi4G将3DGS与其对偶图机制提供的非刚性跟踪相结合,用于高保真渲染,从而以更紧凑的方式成功地保持了时空一致性。为了在消费者级设备上实现更高的渲染速度和高分辨率,GPS Gaussian在稀疏源视图上引入高斯参数图,以与深度估计模块联合回归高斯参数,而无需任何微调或优化。除此之外,GART基于3DGS表示将人类扩展到更多关节模型(例如动物)。

Head:对于使用3DGS的人类头部建模,MonoGaussianAvatar首先将3DGS应用于使用规范空间建模和变形预测的动态头部重建。此外,PSAvatar引入了显式Flame人脸模型来初始化Gaussians,它可以捕捉高保真的人脸几何结构,甚至复杂的体积对象(如眼镜)。高斯头中使用三平面表示和运动场来模拟连续运动中几何变化的头,并渲染丰富的纹理,包括皮肤和头发。为了更容易控制头部表情,GaussianAvatars在3DGS中引入了几何先验(Flame参数化人脸模型),将Gaussians绑定到显式网格上,并优化高斯椭球的参数。Rig3DGS采用可学习的变形,为新颖的表情、头部姿势和观看方向提供稳定性和通用性,以在便携式设备上实现可控的肖像。通过另一种方式,HeadGas为3DGS赋予了由3DMM的表达向量加权的潜在特征的基础,从而实现了实时可动画化的头部重建。FlashAvatar进一步在参数人脸模型中嵌入均匀的3D高斯场,并学习额外的空间偏移来捕捉人脸细节,成功地将渲染速度提高到300 FPS。为了合成高分辨率的结果,高斯头像采用超分辨率网络来实现高保真度的头像学习。除此之外,一些作品将3DGS扩展到基于文本的头部生成、DeepFake和重照明。

Hair and hands:人类的其他部位也被探索过,比如头发和手。3D-PSHR将手部几何先验(MANO)与3DGS相结合,首次实现了手部的实时重建。MANUS使用3DGS进一步探索了手和物体之间的互动。此外,GaussianHair首先将Marschner头发模型与UE4的实时头发渲染相结合,以创建高斯头发散射模型。它可以捕捉复杂的头发几何体和外观,以实现快速光栅化和体积渲染,从而实现包括编辑和重新照明在内的应用程序。

3D/4D Generation

使用扩散模型生成跨模态图像已经取得了令人惊叹的结果。然而,由于缺乏3D数据,很难直接训练大规模的3D生成模型。DreamFusion的开创性工作利用了预先训练的2D扩散模型,并提出了分数蒸馏采样(SDS)损失,将2D生成先验提取到3D中,而不需要3D数据进行训练,实现了文本到3D的生成。然而,NeRF表示带来了沉重的渲染开销。每种情况的优化时间都需要几个小时,而且渲染分辨率较低,导致结果质量较差。尽管一些改进的方法从训练的NeRF中提取网格表示进行微调以提高质量,但这种方式将进一步增加优化时间。3DGS表示可以渲染高FPS和小内存的高分辨率图像,因此它取代了最近一些3D/4D生成方法中的NeRF作为3D表示。

3D生成:DreamGaussian将DreamFusion框架中的MipNeRF表示替换为3DGS,3DGS使用SDS损失来优化3D高斯。3DGS的拆分过程非常适合生成设置下的优化进度,因此3DGS的效率优势可以带到基于SDS损失的文本到3D生成中。为了提高最终质量,这项工作遵循了Magic3D的思想,即从生成的3DGS中提取网格,并通过逐像素均方误差(MSE)损失优化UV纹理来细化纹理细节。除了2D SDS之外,GSGEN还引入了基于Point-E的3D SDS损失,这是一种文本到点云扩散模型,以缓解多面或Janus问题。它采用Point-E将点云初始化为初始几何体进行优化,并且只使用2D图像先验来细化外观。GaussianDreamer还结合了2D和3D扩散模型的先验。它利用Shap-E生成初始点云,并使用2D SDS优化3DGS。然而,由于生成的初始点云相对稀疏,因此进一步提出了噪声点增长和颜色扰动来对其进行加密。然而,即使引入了3D SDS损失,在优化过程中,由于视图被逐一采样,Janus问题可能仍然存在。

4D生成:基于当前3D生成的进展,还对3DGS表示的4D生成进行了初步探索。AYG为3DGS赋予了动力学,并为文本到4D的生成提供了变形网络。它分为两个阶段,基于稳定扩散和MVDream的具有SDS损失的静态3DGS生成,以及基于文本到视频扩散模型的具有视频SDS损失的动态生成。在动态生成阶段,只对变形场网络进行优化,并随机选择一些帧来添加基于图像的SDS,以确保生成质量。生成结果如图13所示。DreamGaussian4D在给定参考图像的情况下实现4D生成。首先使用DreamGaussian的改进版本生成静态3DGS。现成的稳定扩散视频用于从给定的图像生成视频。然后,还通过优化添加到静态3DGS的变形网络来实现动态生成,并且生成的视频被用作监督,以及基于来自采样视图的Zero-1-to-3 XL的3D SDS损失。最后,该方法还提取了一个网格序列,并利用图像到视频的扩散模型对纹理进行了优化。最后,对于视频到4D的生成,4DGen和Efficient4D都提出利用SyncDreamer从输入帧生成多视图图像作为伪地面实况来训练动态3DGS。前者引入HexPlane作为动态表示,并使用生成的多视图图像作为三维变形伪地面实况来构建点云。后者直接将3D高斯转换为4D高斯,并通过融合相邻时间戳的空间体积来增强SyncDreamer的时间连续性,实现时间同步,以生成更好的跨时间多视图图像进行监督。

Conclusions and Discussions

这项调查概述了最近的3D高斯散射(3DGS)技术,它不仅说明了它是如何起源于传统的基于点的渲染方法,还说明了它的快速渲染和3DGS表示的显式几何结构如何促进一系列针对3D重建和3D编辑等应用的工作。尽管3DGS极大地提高了不同任务的效率和结果质量,但3D高斯散射仍然存在挑战,可以通过未来的研究来改进。

稳健的新视图合成:尽管3D高斯散射已经获得了逼真的新视图综合结果,但当处理具有挑战性的输入(如稀疏视图输入、复杂的着色效果和大规模场景)时,其重建质量会下降。尽管已经尝试获得更好的结果,但仍有改进的空间。如何提高其对不同输入的重构鲁棒性是一个重要的问题。

几何重建:尽管在渲染质量方面做出了努力,但很少有方法能用3DGS表示进行几何/表面重建。与NeRF和SDF等连续隐式表示相比,3DGS的几何质量仍然受到其离散几何表示的影响。使用3D GS表示构建高质量的几何体/曲面将有助于自动化车辆和动画等下游应用。

独立高效的3D编辑:有几种方法已经深入到编辑3D GS的几何体、纹理和照明领域。然而,它们无法准确地分解几何体、纹理和照明,或者需要重新优化高斯属性。因此,这些方法仍然缺乏独立的编辑能力或在编辑过程中缺乏效率。使用更先进的渲染技术提取几何体、纹理和照明,以促进独立编辑,并在3DGS和基于网格的表示之间建立连接,从而实现高效编辑,这是很有希望的。

逼真的4D生成:在基于SD的SDS损失的帮助下,具有3DGS表示的生成模型产生了可靠的结果。然而,当前方法的4D生成结果仍然错过了逼真的几何形状、外观和物理感知运动。整合视频生成模型和物理定律产生的数据先验结果可能会提高生成的4D内容的质量。

平台:大多数基于3D高斯Splatting表示的方法的实现都是用Python编写的,带有cuda支持的PyTorch框架,这可能会限制其未来在更广泛平台上的适用性。使用Tensorflow和Jittor等深度学习框架重新制作它可以促进它在其他硬件上的使用。

参考

[1] Recent Advances in 3D Gaussian Splatting

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

c92c8c4cbcc6ae3162dd1decdd10bbfe.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

309fd95b192f6f4d2fa8411bc1e7a689.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

bf6784f303ee7f1a3edcc392478279ea.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

e19b20c09b3971064568117d6d94c2b4.jpeg

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/610622
推荐阅读
  

闽ICP备14008679号