当前位置:   article > 正文

deep learning for VO or VSLAM_deepvo: a deep learning approach for monocular vis

deepvo: a deep learning approach for monocular visual odometry

1.deep learning for VO

参考:深度学习SLAM :最新的基于深度学习的deepvo,VINet,大家怎样评价?

1.1.DeepVO : Towards Visual Odometry with Deep Learning

  • 作者:Sen Wang1,2, Ronald Clark2, Hongkai Wen2 and Niki Trigoni2

  • 机构:1. Edinburgh Centre for Robotics, Heriot-Watt University, UK 『爱丁堡机器人技术中心』2. University of Oxford, UK『牛津』

  • 摘要:

  • 本研究从深度学习角度研究单眼视觉测量(VO)问题。现有的大多数VO算法都是在标准流水线下开发的,包括特征提取,特征匹配,运动估计,局部优化等等。尽管其中一些已经表现出优越的性能,但是通常需要精心设计和专门微调以使其工作良好在不同的环境中。一些先验知识也需要恢复单眼VO的绝对比例。本文通过深度递归卷积神经网络(RCNN)为单眼VO提供了一个新颖的端到端框架。由于它是以端对端的方式进行训练和部署的,因此它不需要在传统的VO管道中采用任何模块,而是直接从一系列原始RGB图像(视频)推断出姿态。基于RCNN,它不仅可以通过卷积神经网络自动学习VO问题的有效特征表示,而且还可以隐式地使用深度递归神经网络建立顺序动力学和关系模型。在各种数据集上进行广泛的实验,展示了最先进的方法的竞争力,验证了端到端的深度学习技术可以成为传统VO系统的可行补充。

该机构相关论文:

1.VINet: Visual-Inertial Odometry as a Sequence-to-Sequence Learning Problem

2.VidLoc: A Deep Spatio-Temporal Model for 6-DoF Video-Clip Relocalization

3.3D Object Reconstruction from a Single Depth View with Adversarial Learning

4.Towards Monocular Vision based Obstacle Avoidance through Deep Reinforcement Learning

5.UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning

6.End-to-end, sequence-to-sequence probabilistic visual odometry through deep neural networks『还没发表』

1.VidLoc: 6-DoF Video-Clip Relocalization
2.VINet: Visual-Inertial Odometry as a Sequence-to-sequence Learning.

1.2.DeepVO: A Deep Learning approach for Monocular Visual Odometry

  • 作者:Vikram Mohanty, Shubh Agrawal, Shaswat Datta, Arna Ghosh, Vishnu Dutt Sharma, Debashish Chakravarty

  • 机构:Indian Institute of Technology, Kharagpur 『印度理工学院,克勒格布尔 』

  • 摘要:

  • 基于深度学习的技术已经被精确地采用来解决许多标准的计算机视觉问题,其中一些是图像分类,目标检测和分割。尽管这些方法取得了广泛的成功,但它们还没有被广泛用于解决在自主导航中遇到的诸如视觉内测(VO),运动结构(SfM)和同时定位映射(SLAM)等标准感知问题。本文使用基于深度学习的框架来分析单眼视觉测量的问题,而不是常规的“特征检测和跟踪”管道方法。为了理解已知的/未知的环境,传统的可跟踪特征和针对网络精确估计相机(或车辆)的运动轨迹的能力的对象分类而调整的预先训练的激活,进行了若干实验。基于这些观察结果,我们提出了一种卷积神经网络架构,最适合估计已知环境条件下的物体姿态,并且在实时使用单个相机来推断实际比例时显示出有希望的结果。

  • 该机构相关论文:

暂未找到

2.deep learning for VSLAM

参考:
1.当前深度学习和slam结合有哪些比较好的论文,有没有一些开源的代码?
2.深度学习结合SLAM的研究思路/成果整理之(一)使用深度学习方法替换SLAM中的模块
3.深度学习结合SLAM的研究思路/成果整理之(二)语义SLAM & 端到端

2.1

CNN-SLAM[1]为今年CVPR的文章,是比较完整的pipeline,将LSD-SLAM里的深度估计和图像匹配都替换成基于CNN的方法,取得了更为robust的结果,并可以融合语义信息。见http://campar.in.tum.de/Chair/ProjectCNNSLAM。类似的工作还有[2]。
VINet[3]是今年AAAI的文章,利用CNN和RNN构建了一个VIO,即输入image和IMU信息,直接输出估计的pose。
[4]是Magic Leap放出来的文章,说是Deep SLAM,其实只是用CNN做了SLAM中提取特征点和匹配特征点的两个模块,在CPU上实时。
[5]是Google 今年CVPR的oral文章,利用CNN学习一个无监督的深度估计和pose估计网络,代码见tinghuiz/SfMLearner。SfM-Net[6]利用监督学习也干了类似的工作。其他包括重定位[7][8]、语义地图[9]、回环检测等也有一些工作,这里不赘述。这些工作大部分都是针对单目来做的,因为单目尺度未知,正好需要CNN进行脑补。个人觉得,基于CNN的方法由于局限于训练数据,目前除了回环和语义以外,其它方面在数据集或者受限场景以外尚未达到可用的效果。欢迎交流。
参考文献:
[1] Tateno K, Tombari F, Laina I, et al. CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction[J]. arXiv preprint arXiv:1704.03489, 2017.
[2] Li R, Wang S, Long Z, et al. UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning[J]. arXiv preprint arXiv:1709.06841, 2017.
[3] Clark R, Wang S, Wen H, et al. VINet: Visual-Inertial Odometry as a Sequence-to-Sequence Learning Problem[C]//AAAI. 2017: 3995-4001.
[4] DeTone D, Malisiewicz T, Rabinovich A. Toward Geometric Deep SLAM[J]. arXiv preprint arXiv:1707.07410, 2017.
[5] Zhou T, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[J]. arXiv preprint arXiv:1704.07813, 2017.
[6] Vijayanarasimhan S, Ricco S, Schmid C, et al. SfM-Net: Learning of Structure and Motion from Video[J]. arXiv preprint arXiv:1704.07804, 2017.
[7] Wu J, Ma L, Hu X. Delving deeper into convolutional neural networks for camera relocalization[C]//Robotics and Automation (ICRA), 2017 IEEE International Conference on. IEEE, 2017: 5644-5651.
[8] Kendall A, Grimes M, Cipolla R. Posenet: A convolutional network for real-time 6-dof camera relocalization[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2938-2946.
[9] Li X, Belaroussi R. Semi-Dense 3D Semantic Mapping from Monocular SLAM[J]. arXiv preprint arXiv:1611.04144, 2016.

2.2

前端:在传统基于特征点的方法上,结合图像分割和语义信息可能是比较有意义的一个方向,包括帮助筛选更稳定的特征点。而基于单目摄像头用CNN进行深度预测的SLAM pipeline(例如[1])有很多问题,主要在于准确度非常低。我们做过benchmark,基于单帧彩色照片进行距离信息预测,在室内每个像素的平均误差约50cm,在室外平均误差则高达7米以上。顺便打个广告:我们刚投ICRA的文章结合少量的距离信息和彩色信息进行距离图像预测[2],效果比单纯用彩色照片准确得多且鲁棒性强。这个方法可以帮助传统SLAM从稀疏点云快速生成密集的点云,也可以用在激光雷达的超分辨率上。代码已开源 https://github.com/fangchangma/sparse-to-dense, 视频请翻墙 https://youtu.be/vNIIT_M7x7Y。

闭环检测:有一些基于CNN的工作[3],但效果似乎还没有能达到传统方法(例如ORB-SLAM里的闭环检测)的水平。
[1] CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction
[2] Sparse-to-Dense: Depth Prediction from Sparse Depth Samples and a Single Image
[3] Self-Supervised Visual Place Recognition Learning in Mobile Robots

2.3

2.3.1.用Deep learning处理传感器数据(前端)

  1. Stereo Matching by Training a Convolutional Neural Network to Compare Image Patches
  2. Efficient Deep Learning for Stereo Matchin
  3. Accurate Optical Flow via Direct Cost Volume Processing

2.3.2.利用deep learning学习几何信息(后段)

  1. Parse Geometry from a Line: Monocular Depth Estimation with Partial Laser Observation
  2. Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue
  3. Unsupervised Learning of Depth and Ego-Motion from Video
  4. Multi-View Deep Learning for Consistent Semantic Mapping with RGB-D Cameras

2.4

I. 相机重定位(Relocalization):

Deep Learning和SLAM结合的开山之作 ,剑桥的论文:PoseNet 。该方法使用 GoogleNet 做了 6自由度相机pose 的regression。训练数据是带有ground truth pose的场景帧。

PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization

II. 特征点提取与匹配:

LIFT: Learned Invariant Feature Transform

Toward Geometric Deep SLAM

III. 端对端视觉里程计:
Unsupervised Learning of Depth and Ego-Motion from Video

SfM-Net: Learning of Structure and Motion from Video

DeMoN: Depth and Motion Network for Learning Monocular Stereo

IV. 语义 SLAM
CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction

2.5.扩展阅读

基于深度学习的单目图像深度估计有哪些比较好的参考资料(书籍、博客、论文…)?求大神指点。

3.利用视觉和deep learning做自主导航

Cognitive Mapping and Planning for Visual Navigation

Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/242278
推荐阅读
相关标签
  

闽ICP备14008679号