赞
踩
同时定位与地图构建(SLAM)是机器人搭载视觉、激光、里程计等传感器,对未知环境构建地图的同时实现自定位的过程,在机器人自主导航任务中起着关键作用 .
尽管 SLAM 采用的传感器有激光和视觉等多种类型,但其处理过程一般包含 2 个部分 [5] (如图 1 所示):前端帧间估计和后端优化.前端帧间估计解决的是机器人在获取前后 2 帧传感器信息的时间间隔内的运动估计,而后端优化解决的是机器人检测到路径闭环后对历史轨迹的优化问题 [6] .
人工设计的稀疏图像特征当前有很多局限性:
一方面如何设计稀疏图像特征最优地表示图像信息
另一方面稀疏图像特征在应对光照变化、动态目标运动、摄像机参数改变以及缺少纹理或纹理单一的环境等方面
深度学习与 SLAM 的结合主要体现在 3 个方面,即基于深度学习的帧间估计、闭环检测和语义地图生成
帧间估计也称为视觉里程计(visual odometry),是通过分析关联摄像机图像之间的多视几何关系确定机器人位姿与朝向的过程,可作为视觉 SLAM 的前端 [30] .
基于端到端的深度神经网络架构用于预测摄像机速度和方向的改变.主要特点是利用单一类型的计算模块和学习规则提取视觉运动和深度信息以及里程计信息:
首先是图像序列深度和运动信息的提取利用乘性交互(multiplicative interaction)神经网络进行时序立体图像的同步检测(synchrony detection),将立体图像序列之间的空间变换估计转换为同步检测,该网络也被称为无监督同步/深度自动编码器(synchrony/depth au-toencoder,SAE-D)
其次是图像序列速度和方向改变估计.作者将上一层 SAE-D 提取的运动和深度信息作为卷积神经网络层(CNN)输入,用以学习图像速度和方向改变,从而执行帧间估计。
利用卷积神经网络学习图像数据的最优特征表示进行视觉里程计估计,并展示了其算法在应对图像运动模糊、光照变化方面的鲁棒性
先用 Brox 算法提取连续 2 帧的稠密光流特征,以此作为 CNN 网络的输入.文中在设计深度网络时探索了 3 种不同的 CNN 架构,一是基于全局特征的 CNN-1b,一是基于局部特征的 CNN-4b,以及结合前两种架构的 P-CNN.
CNN-1b 和 CNN-4b 结构相似,将浅层 CNN 和深层 CNN 并行级联入全连接网络.该方法在训练的过程中采用逐层训练的方法来解决 CNN 全局训练难的问题.为同时考虑全局特征、 局部特征、 浅层特征和深层特征,作者将全局特征 CNN-1b 和局部特征 CNN-4b 结合构建了 P-CNN.
在空间变换网络(spatial transformnetwork) [32] 基础上进行了扩展,在设计网络时选择对经典计算机视觉方法进行回归,如端到端的视觉里程计和图像深度估计等
利用神经网络构建了包含全局变换、 像素变换和 M 估计器在内的 gvnn(geometric vision with neural network)软件库,作者实现了基于RGB-D 数据的视觉里程计.该系统的网络构架由VGG-16 网络启发构建的Siamse 网络层、位姿变换估计层(SE3 layer)、3 维网格生成层(3D grid generator)、投影层(projection layer)和双线性插值层(bilinear interpolation)组成。
其中,Siamse 网络的输入为2 个连续的帧图像,输出是对摄像机6 自由度的帧间位姿估计向量。基于此帧间估计,将上一帧图像投射到当前位姿,并经过双线性插值生成预测图像.为构造损失函数进行学习,预测图像不是与当前图像进行像素级对比,而是与上一帧图像利用真实的帧间估计进行投影和双线性差值后的图像对比,从而避免了传统神经网络结构在学习过程中单方面的像素丢失和各种运动模糊、强度变化或图像噪声对匹配的影响。
缺点:不同学习算法之间的神经网络架构设计差异性较大,对训练学习数据库有较强的依赖。
闭环(loop closure)检测是指机器人在地图构建过程中,通过视觉等传感器信息检测是否发生了轨迹闭环,即判断自身是否进入历史同一地点。闭环检测问题本质上是场景识别问题[33]。
问题:如何选择合适的隐含层表示图像特征、如何设计神经网络架构和如何利用面向任务的大数据集对网络参数迁移学习优化
语义SLAM 是指SLAM 系统在建图过程中不仅获得环境中的几何结构信息,同时可以识别环境中独立个体,获取其位置、姿态和功能属性等语义信息,以应对复杂场景及完成更加智能的服务任务
问题:当前基于深度学习的语义SLAM 多是单向的,即利用传统SLAM 改进语义分割结果,还未出现语义信息与SLAM 相互促进的完善机制
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。