赞
踩
本文提出了一种物体实例级别的基于体素的语义SLAM系统, 主要内容包括:
McCormac等人提出了一种在线的物体级别的SLAM系统,能够建立持续准确的任意物体的3D地图。一个RGB-D相机在一个杂乱室内环境中运动,Mask-RCNN实例分割被用于初始化每个物体的紧凑TSDF重建和一个3D前景掩膜。每个物体的TSDF重建的分辨率与物体大小相关。重建的物体存储在一个优化的6DoF位姿图中,作为我们的持久地图表示。物体通过深度融合增量优化,并用于跟踪,重定位或回环检测。回环导致物体级别的相对位姿估计的调整,但是没有内部的物体扭曲。每个物体也保留随着时间被优化的语义信息和虚假物体预测的概率。
室内场景理解和3D建图是使得真实世界机器人自主完成任务的基础技术,并且提供了一个公共的接口用于更智能和直观的人类-地图和人类-机器人交互。为了完成该任务,需要选择地图表示。一个特别有用的表示是建立面向物体的地图。我们认为这是一种自然和高效的方式,同时对于机器人的场景理解,规划和交互也最为重要;并且它对于人机交互也高度适合。
在一个物体级别的地图中,组成一个物体的几何元素被组装成一个实例,并且作为独立单元被标号和推理,和那些独立标记稠密几何的方法如面元或点完全不同。该方法也自然地铺平了到交互和动态物体推理的道路,虽然我们的系统当前假设一个静态环境,并且不致力于跟踪单个动态物体。
在本文我们展示了一个面向物体的在线SLAM,专注使用RGB-D数据的室内场景理解。我们致力于产生物体实例具有语义标号的TSDF重建,没有强调场景中物体类型的先验知识。我们使用Mask R-CNN来产生2D实例掩膜预测,并且实时融合这些掩膜到TSDF重建中(见图1),得到一个3D“体素掩膜”来融合实例前景(见图3)。
图1. Fusion++,包括在公开fr2_desk序列中的位姿图和被发现的物体
图3. 物体体素前景。注意到低于0.5的值未被渲染。
不像许多稠密重建系统,如DTAM,Kinitunuous,ElasticFusion等,我们不尝试保持整个场景的稠密表示。我们维护的地图只包括重建的物体实例。这个允许刚体TSDF体素用于高质量的重建,与位姿图系统的灵活性组合在一起,并且没有涉及到内部TSDF分解。每个物体包含在单独的体素中,允许每个有不同的,合适的分辨率。这允许以相对较小的内存使用跟踪大场景,和高保真度重建通过排除空闲区域的大体素。一个临时保存的局部TSDF被用于辅助跟踪和建模遮挡。
我们捕捉室内办公场景的重复回环,从而在偶尔约束较差的ICP跟踪条件下评估系统。场景包含大量多种物体,不仅展示了方法的一般性,而且对于评估内存和运行时间到多物体的可扩展性具有帮助。虽然没有实时性的优化,在我们的办公室序列中系统达到了4-8Hz操作表现(除了重定位/图优化模块),并且我们对于充分优化后的实时性操作具有很强的信心。我们也定量评估了我们方法相对一个RGB-D SLAM基准平台上的基线方法的轨迹误差表现的提升。
本工作中,我们做出如下贡献:
对于重建,我们跟随Curlesshe Levoy的TSDF架构和Newcombe et al.的KinectFusion方法。我们的物体级别重建方法与Zhou和Koltum的方法相关,其中“兴趣点”被检测,目标是重建场景从而保持这些区域的细节,并在环境的其余地方分布漂移和配准误差。在我们的方法中我们类似地致力于优化物体重建的质量并允许位姿图边缘处的残差误差被丢弃。
SLAM++是一个早期的RGB-D面向物体的建图系统。他们使用点对特征用于物体检测和一个位姿图用于全局优化。缺点是物体的实例集合和非常细节的几何形状必须提前知道,并在运行前离线预处理。Stuckler和Behnke也跟踪提前学习的物体模型通过对齐它们到一个多分辨率面元地图中。Tateno等使用一个预训练的物体数据库来生成描述子,当时他们使用一个KinectFusion TSDF来增量分割重建的TSDF体素区域,并直接和数据库中的其它物体匹配3D描述子。
大量物体发现的方法被提出。和我们最相关的是Choudhary等,他们使用发现物体作为路标在类似我们的位姿图中定位相机,虽然他们只使用点云中心,我们的位姿图物体路标边是全6DoF SE(3)约束由稠密体素上的ICP提供。他们展示方法提高了SLAM结果通过检测回环。但是,不像我们的工作,他们使用点云而不是TSDFs,并且没有训练一个物体检测器,而是使用Trevoer的无监督的分割方法。
另一个物体发现的方法是通过相同场景连续建图间的稠密变化检测。不像这些系统,我们的系统被设计为在线使用,并且在物体被检测前不需要变化发生在场景中。这些方法和我们的方法互补,提供了CNN精修的监督信号,并且产生额外的物体数据库滤波机制。
在纯RGB SLAM的物体检测中,Pillai和Leonard使用ORB-SLAM来辅助物体识别。它们使用一个半稠密地图来产生物体建议,并组合多视角的检测证据用于物体检测和分类。MO-SLAM专注于通过复制的物体发现。他们使用ORB描述子来搜索路标集合,可以通过单个刚体变换进行组合。该方法类似我们的重定位方法,使用BRISK特征但是使用深度进行了增强。
和我们工作非常接近的是Sunderhauf等,他们提出一个面向物体的建图系统,由使用边界框检测和一个无监督几何分割算法得到的实例组成。虽然这个前提非常相关,但是有许多不同。他们使用一个单独的SLAM系统,ORB-SLAM2,而我们的系统被发现的物体实例紧耦合到SLAM系统中。我们也融合实例到单独的具有来自2D实例掩膜检测的前景掩膜的TSDF体素中。
大量最近的工作已经被发布。Pham等融合整个场景的TSDF并使用一个CNN和CRF语义标记体素。为了分割实例,除了融合原来的实例检测,它们选择在3D中聚类语义标号体素。该方法是稠密3D语义建图后自然想到的下一步,但是不适合物体级别位姿图优化和作为嵌入到共享TSDF中的实例重建。它也需要语义识别作为物体发现的前提,被证明是有问题的对于相似的和在相邻区域中未识别的物体。
图2. Fusion++系统综述
我们的流程图在图2中可视化。根据RGB-D输入,一个粗糙的背景TSDF被初始化用于局部跟踪和遮挡处理(3.3节)。如果位姿变化足够或者系统出现丢失,重定位(3.4节)和位姿图优化(3.5节)被执行来达到一个新的相机定位,并且粗糙的TSDF被重置。在一个分离的线程中,RGB帧通过Mask R-CNN被处理,并且检测被过滤并与现存地图匹配(3.2节)。当没有匹配出现,新的TSDF物体实例被创建,固定大小,并添加到地图中用于局部跟踪,全局图优化和重定位。在未来的帧中,关联的前景检测被融入到物体的3D“前景”掩膜中,包含语义和存在概率(3.1节)。
我们的地图由分离的TSDF中重建的物体实例组成,每个物体具有一个由变换定义的位姿, ,其映射一个点从从物体坐标系 的坐标 到世界坐标系 的坐标
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。