赞
踩
本文中,我们提出了一种新的数据驱动方法,从单一RGBD图稳健估计物体6D位姿。与直接回归位姿不同,我们使用基于关键点的方法来处理这个具有挑战性的任务。具体而言,我们提出了一个深度霍夫投票网络来检测物体的3D关键点,然后使用最小二乘拟合的方式下估计6D位姿。我们的方法是基于2D关键点方法的扩展,它在RGB图上估计6D位姿取得了成功。它充分利用具有额外深度信息的刚体的几何约束,易于网络学习和优化。该方法达到了sota的性能。
论文链接:https://arxiv.org/abs/1911.04231
论文代码:https://github.com/ethnhe/PVN3D.git
本文研究的是6D位姿估计,即在标准框架下识别物体的3D位置和方向。该技术在现实中有很多应用,比如机器人抓取、自动驾驶、增强现实等。
由于光线变化、传感器噪声、场景遮挡及物体截断等,6D位姿估计是一个挑战性的问题。传统方法使用手工设计的特征,提取图像与物体网格模型之间的对应关系,但是这些人工设计的特征在光线变化及严重遮挡的场景下性能较差。近期,随着机器学习与深度学习技术的发展,深度神经网络(DNN)被用于解决这一任务,并取得显著效果。一些方法直接使用 DNN 回归物体的旋转R和平移矩阵T,但是由于旋转空间是非线性的,这些方法的泛化性往往较差。另一些方法则通过DNN检测一个物体的2D关键点,再通过PnP算法计算 6D 位姿参数。尽管这种两阶段的方法更加稳定,但PnP算法构建在2D投影误差上,而2D空间的小误差在真实的3D空间中会被放大很多,而且,3D空间中的不同关键点可能会在2D投影后发生重叠,变得难以区分;更重要的,刚体的几何约束信息会由于相机的投影而部分缺失。
另一方面,随着RGBD传感器和数据集的普及,额外的深度信息允许将2D算法扩展至3D空间,并在3D物品检测等问题上取得了良好的性能,如pointnet系列和votenet等。本文充分利用了刚体的几何约束信息,将基于2D关键点的方法扩展基于3D关键点,提升6D位姿测量精度。具体而言,本文提出一种基于霍夫投票(Hough voting)的神经网络,以学习逐点到3D关键点的偏移并为3D关键点投票,如图 1 所示。本文的其中一个关键发现是一个简单的几何特性,即在3D空间中,一个刚体上任意两点之间的相对位置关系是固定的。因此,给定物体表面的一个可见点,它的坐标和方向可由深度信息获得,其相对于刚体上预选关键点的平移偏移量也是确定且可学习的。同时,深度神经网络学习逐点欧几里得偏移直截了当,且易于优化。
图一 pipeline:(a)输入RGBD图片;(b)使用一个深度霍夫投票网络预测每个点相对于关键点的平移偏移;(c)在同一个对象上每一个点为选择的关键点投票,和将集群的中心选为预测关键点;(d)-(e)最小二乘拟合方法应用于估计6D位姿参数;(f)由估计的6D位姿参数转换后的模型
当场景有
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。