当前位置:   article > 正文

浙大开源 | 18FPS!精度直追ORB-SLAM!最新的GS SLAM质量太高啦!

gs-slam

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

4b1afc2e4a1d8ba76605691c9ba3cb9f.jpeg

0. 这篇文章干了啥?

这篇文章介绍了RTG-SLAM,这是一个实时三维重建系统,使用RGBD相机针对大型环境使用高斯喷溅,具有紧凑的高斯表示和高效的即时高斯优化方案

在紧凑高斯表示中,作者强制每个高斯要么是不透明的,要么几乎是透明的,不透明的高斯适合表面(即深度图)和主要颜色,透明的高斯适合残留颜色。作者的意图是使用单个不透明的高斯来适应表面的局部区域,而不需要多个重叠的高斯。然而,即使对于不透明的高斯,如果以与渲染颜色相同的方式渲染其深度,那么产生的深度值将从高斯中心下降,使得使用这个高斯单独来表示一个局部区域不准确。为此,作者提出以不同的方式渲染深度,将每个不透明的高斯视为高斯的主平面上的椭圆盘,这样它可以自己很好地适应局部区域或大的平坦区域。在这种设置下,深度渲染非常方便。在颜色渲染期间,已经对高斯进行了排序,以及它们对于每个像素的不透明度。通过从前到后选择第一个对于该像素的不透明度大于给定阈值的高斯,考虑光线击中椭圆盘并使用光线和盘平面的方程计算交点。然后,像素的深度等于交点的深度。整个过程是可微分的,因此可以通过反向传播测量渲染和输入深度图之间的差异来优化高斯。紧凑的高斯表示可以用更少的高斯来适应三维表面,从而大大减少了内存和计算成本。

作者为紧凑的高斯表示设计了一种高效的即时高斯优化方案,首先根据是否已充分优化将所有高斯分类为稳定和不稳定的,预期稳定的高斯能够很好地适应先前观察到的RGBD图像,否则不稳定。然后,给定扫描期间的新RGBD帧,而不是根据视图空间位置梯度自适应地密集化高斯,显式地为三种类型的像素添加高斯,这些像素具有有效深度:新观察到的像素、颜色重新渲染后具有大色差的像素以及深度重新渲染后具有大深度差的像素。对于新观察到的像素或深度误差较大的像素,这意味着需要新的不透明高斯来适应表面,作者均匀地采样一小部分像素来初始化不透明的高斯。对于仅具有大色差的像素,这意味着它们已经具有很好地适应表面但在当前视图中外观不佳的不透明高斯,应用相同的像素采样并检查相关的不透明高斯的状态。如果不稳定,将它们保留以继续优化。否则,添加一个透明的高斯,为当前视图中的颜色提供残余颜色,而不破坏先前的观察。然后,根据颜色和深度的重新渲染损失启动优化过程。请注意,只优化不稳定的高斯,并且只渲染由不稳定的高斯占据的像素。通过这种方式,要优化的高斯数量和要渲染的像素数量大大减少,并且优化可以实时完成。作者还建立了一种状态管理机制,使稳定/不稳定的高斯之间可以相互转换,以及删除长期错误的高斯。最后,为了在复杂的现实世界环境中实现准确的跟踪,使用经典的帧到模型ICP作为前端里程计,并维护一组地标用于后端图优化。

RTG-SLAM的运行速度大约是最先进的基于NeRF的SLAM的两倍,内存成本约为一半,速度和内存也超过了SplaTAM,其中SplaTAM在扫描家庭场景时以0.31 fps运行,并且在扫描过程中内存不足。

下面一起来阅读一下这项工作~

1. 论文信息

标题:RTG-SLAM: Real-time 3D Reconstruction at Scale using Gaussian Splatting

作者:Zhexi Peng, Tianjia Shao, Yong Liu, Jingke Zhou, Yin Yang, Jingdong Wang, Kun Zhou

机构:浙江大学、犹他大学、百度

原文链接:https://arxiv.org/pdf/2404.19706

代码链接:https://gapszju.github.io/RTG-SLAM

2. 摘要

我们提出了 RTG-SLAM,这是一个使用高斯点阵的 RGBD 相机进行大规模环境实时三维重建系统。RTG-SLAM 具有紧凑的高斯表示和高效的即时高斯优化方案。我们强制使每个高斯要么不透明要么几乎透明,其中不透明的高斯适应表面和主导颜色,透明的高斯适应残余颜色。通过以与颜色渲染不同的方式渲染深度,我们使单个不透明高斯能够很好地适应局部表面区域,而无需多个重叠的高斯,从而大大减少了内存和计算成本。对于即时高斯优化,我们明确为每帧的三种类型的像素添加高斯:新观测到的像素、颜色误差较大的像素和深度误差较大的像素。我们还将所有高斯分为稳定和不稳定两类,其中稳定的高斯预期能够很好地适应先前观测到的 RGBD 图像,否则为不稳定。我们仅优化不稳定的高斯,并且仅渲染由不稳定高斯占据的像素。通过这种方式,要优化的高斯数量和要渲染的像素数量都大大减少了,优化可以实时完成。我们展示了各种真实大场景的实时重建。与基于 NeRF 的 RGBD SLAM 最先进的技术相比,我们的系统在重建质量方面达到了可比较的高水平,但速度大约是其两倍,内存成本减半,并且在新视角合成的逼真度和相机跟踪精度方面表现出优越性。

3. 效果展示

RTG-SLAM使用最先进的 NeRF-based RGBD SLAM 技术对一个酒店房间(约 56.3

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/610592
推荐阅读
相关标签