我家小花儿

这个屌丝很懒，什么也没留下！

热门标签

一文详解语义SLAM相关工作

作者：我家小花儿 | 2024-08-17 22:31:47

踩

slam语义地图?长什么样?包含哪些形式

作者丨方川@知乎

来源丨https://zhuanlan.zhihu.com/p/379243930

编辑丨计算机视觉工坊

动态SLAM和语义SLAM

场景中的动态物体不一定是object或不能得到object, 所以不一定是语义的。语义地图不一定是动态的，所以语义地图和动态地图是有重叠，但是我们这里把他们分开，主要是文章太多了。

关于动态SLAM的相关工作可以参见2016年的一篇综述：Visual SLAM and Structure from Motion in Dynamic Environments: A Survey

在本文中，我们将SLAM技术划分为下图所示的三个阶段：

随着近十年的技术迭代，我们目前所处的阶段可以称之为“感知阶段”，研究的重点偏向于对环境的感知和理解。

一、语义SLAM系统组成

语义SLAM系统由两大部分组成：语义提取模块和视觉SLAM模块。

1.1 语义提取：

语义提取工作分为两步：目标检测、语义分割。

目标检测

目标检测工作的发展可以归纳为下图：

YOLO系列工作在广大学者的推动下，目前已经更新到了YOLO v5. 总的来说，目标检测工作是为了更快、更准的检测图像中的目标，在效率方面，one stage的工作胜于 two stage工作，在精度方面，two stage工作胜于one stage工作。

语义分割

语义分割方面比较重要的几个工作可以列在下表：

最新的语义分割工作当属google的ViP-DeepLab, 可以对图像平面上的每个像素联合执行视频全景分割和单眼深度估计，并在子任务的几个学术数据集取得了sota结果。

1.2 VSLAM：

已开源的比较重要的视觉SLAM工作如下表：

二、机器人如何鲁邦的“感知”环境？

2.1 构建语义地图

在广义上说，语义地图可以分为物体级别和像素级别。语义建图的主要工作可以罗列在下表

2020年MIT提出的Kimera框架是以语义化的mesh的形式生成语义地图。

2.2 语义如何影响“感知”鲁棒性

语义信息辅助特征点的提取匹配过程，如过滤动态物体上的特征点、利用语义过滤错误特征匹配；
语义信息辅助short-term/long-term的数据关联，提高Tracking、relocalization的鲁棒性；

2.3 语义如何影响“感知”准确性

语义信息帮助单目SLAM确定尺度；
语义信息与几何信息在后端共同优化，提高图像位姿精度；
语义信息在relocalization、loop detection方面的帮助；

三、关于目前语义SLAM工作的一些讨论

这里主要针对语义在定位算法侧的一类工作进行讨论，主要包括[5], [6], [7], [8], [9].

[3]: 视觉点云地图的形式为点的位置+点的语义标签，基于粒子滤波器估计2D-3D correspondence, 进而达到图像位姿估计的目的。(需要提供定位初值)

[5]:Kimera-Semantics先生成全局网格模型，然后将每一张关键帧图像上的语义信息提取出来，注释在网格模型上。

[6]: 语义信息辅助单目slam确定尺度, 并且提出了一种在2D图像上做3D object detection的方法. 目标检测的结果可以辅助festure matching、BA。应用到定位算法上，我们可以利用目标检测结果去除动态物体。

[7]: 将车载环视相机用成了激光雷达，并且利用图像上检测到的语义信息，在定位过程使用环视相机生成的语义点云与已有的语义地图做ICP.

[8]: 基于线段和线框的语义地图(稀疏矢量化)表达方式，基于视觉重定位的结果，利用图像中的线段、线框优化位姿。

[9]: 定义了电线杆、标志牌、路面标志等语义元素，在tracking和BA环节同时使用语义元素与传统特征点，并且将语义信息提供的线参数化，放到BA环节来优化相机位姿。语义地图点云(稀疏)包含点的位置和语义信息, 定位过程先用GPS信息，然后image retrieval, 最后接上语义tracking环节。

四、思考

1.语义地图表达形式？

在[8],[9]工作基础上添加点、线、面、数字语义

2. 定位过程中如何利用语义？

视觉重定位+语义优化
视觉重定位+语义SLAM

Reference

1.Semi-dense 3D semantic mapping from monocular slam.

2.Probabilistic data association for semantic slam.

3.Long-term visual localization using semantically segmented images.

4.Graph-based semantic multi-view localization.

5.Kimera: an Open-Source Library for Real-Time Metric-Semantic Localization and Mapping.

6.CubeSLAM: Monocular 3D Object SLAM.

7.AVP-SLAM: Semantic Visual Mapping and Localization for Autonomous Vehicles in the Parking Lot.

8.Compact 3D Map-Based Monocular Localization Using Semantic Edge Alignment.

9.Road Mapping and Localization using Sparse Semantic Visual Features.

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：
学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/994682