赞
踩
选自 arxiv,作者:Chen Wang 等,机器之心编译,机器之心编辑部。
根据 RGB-D 图像进行 6D 目标姿态估计的一个主要技术挑战是如何充分利用两个互补数据源——颜色和深度。为此,李飞飞夫妇等研究者提出了 DenseFusion——一种可单独处理两个数据源的异质架构。实验表明,DenseFusion 在 YCB-Video 和 LineMOD 两个数据集上的表现都优于当前最先进的方法。此外,研究者还将该方法应用于真实的机器人上,使其可以根据估计的姿态来抓取和操纵目标。
1 引言
6D 目标姿态估计对许多重要的现实应用都很关键,例如机器人抓取与操控、自动导航、增强现实等。理想情况下,该问题的解决方案要能够处理具有各种形状、纹理的物体,且面对重度遮挡、传感器噪声、灯光条件改变等情况都极为稳健,同时还要有实时任务需要的速度。RGB-D 传感器的出现,使得在弱灯光环境下推断低纹理目标姿态的准确率比只用 RGB 方法的准确率更高。尽管如此,已有的方法难以同时满足姿态估计准确率和推断速度的需求。
传统方法首先从 RGB-D 数据中提取特征,完成对应的分组和假设验证。但是,对手动特征的依赖和固定的匹配程序限制了它们在重度遮挡、灯光变化环境下的表现。近来在视觉识别领域取得的成果激发了一系列数据驱动方法,即使用 PoseCNN[40] 和 MCN [16] 这样的深度网络对 RGB-D 输入做姿态估计。
但是,这些方法需要精心制作后分析微调步骤,从而完整利用 3D 信息,例如 PoseCNN 中生成的高级定制的迭代最近点(ICP)和 MCN 中多视角假设验证规划。这些微调步骤不能与最终目标函数联合优化,在现实应用中也极为缓慢。在自动驾驶中,有一种第三方解决方案被提出,它能够通过 Frustrum PointNet[22] 和 PointFusion[41] 这样的端到端深度模型很好地利用 RGB-D 数据中颜色和深度信息的补充性质。在驾驶场景中,这些模型取得了非常好的表现,也有很好的实时推理能力。但是,根据经验可知,这些方法在重度遮挡环境下不符合标准,这是实际操控领域中非常常见的一种情况。
在本文中,研究者提出一种端到端的深度学习方法,对 RGB-D 输入的已知物体进行 6D 姿态估计。该方法的核心是在每个像素级别嵌入、融合 RGB 值和点云,这和之前使用图像块计算全局特征 [41] 或 2D 边界框 [22] 的研究相反。这种像素级融合方法使得本文
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。