很楠不爱3

这个屌丝很懒，什么也没留下！

热门标签

基于深度学习的SLAM方法：面向空间机器智能时代_语义映射

作者：很楠不爱3 | 2024-06-14 17:57:49

踩

语义映射

第一次完成阅读论文任务，粗略总结如下，整篇论文旁征博引，综合性强，如有不足或是需要补充之处，欢迎批评指正。

摘要

这篇文章完成的是把深度学习的一些方法加入到定位和建图（SLAM）中，并提出了基于深度学习的SLAM方法的新的分类形式以及对当前模型局限性的分析和对未来的展望

1 介绍

1.1 为什么要研究用于定位和建图的深度学习技术

定位和建图的问题一直在被人们研究，很多学者提出基于假设的各种算法，但都是在理想情况下发挥较大作用，但是现实中往往存在着各种误差，实际效果可能大大减弱，为了解决这一问题，便引入了近阶段迅速发展的深度学习机器学习中的思想——数据驱动学习方法作为解决方案。于是原来的有人为设计算法的基于模型的方法可以改进为由大量数据中得到有用信息的基于学习的方法。

1.2与其他综述的比较

这是第一篇全面而广泛地涵盖了现有的基于深度学习的定位和建图算法工作的综述文章。

2 现有方法的分类

里程计估计
建图
全局定位
SLAM
在这里插入图片描述
下面介绍一下每个分类

3 里程计估计

3.1 视觉里程计VO

分为端到端VO和混合VO。前者纯粹根据基于神经网络，后者是神经网络和经典VO算法的结合

1.端到端VO
根据是否使用真值标签分为有监督VO和无监督VO。
1 有监督VO：输入连续图像，输出相机平移和旋转。基于RNN+ConvNet（循环神经网络和卷积神经网络）系统架构。
优点：
1）可对从未见过环境进行位姿估计
2）可从单目相机生成绝对尺度轨迹
2 无监督VO：输入连续图像，输出目标图像。无标记数据，由深度网络和位姿网络组成。
缺点：
1）尺度模糊 ->可通过双目图像对或者集合一致性思路解决
2）有前提假设：场景静态，无相机遮挡 ->通过刚体结构重建器和一个非刚性运动定位器估计静态场景结构和运动力学
2. 混合VO
将学习到的深度估计值合并到传统VO算法中

3.2 视觉惯导里程计VIO

是将两个传感器结合的方法，利用Camera的3D外观和尺度不确定性与惯导的尺度明确和噪声干扰互补，进而估计相机位姿。
VINET提出将从两连续RGB图像中提取的视觉土整和从IMU数据序列中提取的惯导特征结合来预测相机相对位姿；
Chen等提出选择性传感器融合方法。

3.3 惯导里程计

从分段惯导数据独立窗口中学习到极坐标的二维运动位移的方法
实现方法举例：基于LSTM的框架——IONet，从惯导序列中进行相对位姿的端到端的学习测量
优点：只有该方法可作为极端环境下提供姿态信息的备选方案

3.4 激光雷达里程计

依靠点云配准来监测特征点，使用匹配算法通过最小化两个连续点云扫描之间的举例来获得位姿变换。
优点是能够在复杂的照明条件和无光学特性的情况下持续工作
缺点是激光雷达里程计的性能对非平滑运动引起的点云配准误差
非常敏感。此外，激光雷达测量的数据质量也会受到极端天气条件（例如大雨或起雾）的影响。

4 建图

深度学习生成了一套用于场景感知和理解的工具，应用范围从深度预测到语义标记，再到三维几何重建。本节概述了与现有的基于深度学习建图方法相关的工作。我们将它们分为几何映射、语义映射和一般映射。

4.1 几何映射

几何映射中使用的场景表示的典型选择包括深度、体素、点和网格。

4.1.1 深度表示

用深度图表示场景几何信息，进行场景重建

4.1.2 体素表示

（如何）用三维空间中的体积元素生成高分辨率三维体积模型

4.1.3 点表示

坐标点仅可完成某单个目标的重建任务，暂未发现用于场景重建的点生成方法

4.1.4 网格表示

可捕捉三维形状表面，将单目SLAM的稀疏特征与ConvNet的稠密深度图相结合

4.2 语义映射

语义映射将语义概念（如对象分类、材料组成等）与环境的几何结构联系了起来,使移动机器人能够在纯几何的基础上对其环境产生更高层次的理解，并允许其拥有更为广泛的功能和自主性。

4.3 一般映射

捕获底层场景几何和外观信息的一般地图的表示形式。
神经绘制模型：从位未知的角度进行场景重建；完成的工作：生成+表示

5 全局定位

使用二维和三维模型场景提供和开发的场景先验知识，在已知场景中检索移动机器人的绝对位姿。

5.1 2D到2D的定位

基于显示地图的定位
通过一个带有地理标记的图像数据库来表示场景
步骤：图像检索（查找在地图中位置）、位姿回归（获得查询图像相对于参考图像的相对位姿）
基于隐式地图的定位
从单个图像获取全局位姿

5.2 2D到3D的定位

指恢复二维图像相对于三维场景节点的相机位姿。

基于描述子匹配的定位
主要依靠特征检测器和描述子，建立二维输入特征与三维模型特征之间的对应关系，分为先检测后描述（detect-thendescribe），同时检测和描述（detect-and-describe），先描述再检测（describe-to-detect）三种方式
基于场景坐标回归的定位
场景坐标回归方法是从世界坐标系中的查询图像中估计出每个像素的三维坐标，它可以被看作是学习查询图像到场景的全局坐标的转换

5.3 3D到3D的定位

对预先构建的三维地图恢复三维点（即激光雷达点云）的全局位姿

步骤：扫描/查询、减小误差

6 SLAM

同时跟踪自运动并估计周围环境的结构，构成了一个同时定位与建图（SLAM）系统。

6.1 局部优化

满足约束，确保局部区域一致性

6.2 全局优化

解决累计误差
求解器举例：LM算法

6.3 关键帧和回环检测

关键帧：指检测关键帧（与已有关键帧相似度检测），可使SLAM更为高效
回环检测：基于词袋（BoW）来存储和使用人工制作的探测器的视觉特征来实现，使SLAM后端减少错误

6.4 不确定性估计

为了保证安全性和可解释性，需要对实际情况中的不确定性进行分析。
贝叶斯模型的不确定性大致分为任意不确定性和认知不确定性：任意不确定性反映了观测噪声，如传感器测量或运动的噪声；认知不确定性用于捕捉模型的不确定性；
捕捉的目的有两种：运动跟踪（减小误差）和场景理解（有助于提高SLAM系统可信度）

论文地址: https：//arxiv.org/pdf/2006.12567v1.pdf.

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/很楠不爱3/article/detail/719018