当前位置:   article > 正文

se(3)-TrackNet: 数据驱动的动态6D物体姿态跟踪, 基于合成域的图片残差校准

se(3)-tracknet:

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

标题:se(3)-TrackNet: Data-driven 6D Pose Trackingby Calibrating Image Residuals in Synthetic Domains

作者: Bowen Wen, Chaitanya Mitash, Baozhang Ren, Kostas E. Bekris

机构:Rutgers University

来源:IROS 2020

编译 : Billy  泡泡机器人SLAM

审核:管培育

摘要

大家好,今天为大家带来的文章是 se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains

6D物体姿态跟踪对机器人抓取和操纵非常重要, 而又充满挑战(1)严重的遮挡经常发生; (2)视频中groundtruth的6D姿态人工标注十分困难; (3)长期跟踪对鲁棒性要求很高, 否则容易漂移和丢失。本文提出了数据驱动的端到端神经网络。一个重要的贡献是巧妙的解耦特征编码使虚拟域和真实域分开, 帮助减小域之间的鸿沟。同时旋转成分的李代数表示让训练更加高效紧凑。即使整个框架只在合成数据集上训练,也能在真实世界取得良好的效果,并且超过以前的方法,包括那些需要用真实数据训练的方法。在YCB-Video和一个全新的基准上,大量实验表明了算法的优越性。此外,该方法还非常快速,达到90Hz。

Arxiv: https://arxiv.org/pdf/2007.13866.pdf

代码和数据集: https://github.com/wenbowen123/iros20-6d-pose-tracking

视频: https://www.youtube.com/watch?v=dhqM0hZmGR4

背景与贡献

本文有以下贡献:

1. 提出了一个全新的端到端神经网络, 其中巧妙的特征编码解耦使得sim-to-real迁移更加有效

2. 姿态旋转成分的李代数表示和为之设计的损失函数, 使得训练更加高效。

3. 一个合成数据生成的流程,在模拟器中就能生成大量天然标注好的数据集, 极大减少了人工标注的成本。

4. 一个全新的数据集。采集了多种不同机器人操纵YCB物体场景中物体相对于静止相机动态运动的视频。每一帧的6D物体姿态已被标注用于评估方法。

算法流程

1.整体结构

输入是一连串RGBD的视频, 物体的CAD模型, 和第一帧的初始物体6D姿态。本框架输出视频中每一帧物体的6D姿态。

2. 方法

2.1 网络结构设计

网络的输入有两个分支, 上半部分是用前一帧的物体姿态渲染出的RGBD图片。下半部分是当前从相机中得到的RGBD图片(训练过程中, 这一部分是在模拟器合成的虚拟数据)。相比于把两帧RGBD串联并共享同一个编码器, 这种解耦方式使域鸿沟只存在于第二个分支。对第一个分支来说, 训练和测试阶段的输入在同一个域不受影响。

2.2 基于域随机和满足物理规律的合成训练数据生成

本文设计的网络只需要在模拟器中生成的合成数据集训练, 不需要任何人工标注。数据集的生成用到了域随机, 同时满足物理规律: 高仿真度的碰撞和物理模拟。

主要结果

尽管本文提出的方法只需要合成数据训练, 在两个公开真实数据集上的评估结果却远远超过以往的方法。并且比较的方法中包括那些需要用到已标注的真实数据集训练的方法。

由于YCB-Video数据集中物体是静止放置在桌上, 通过移动相机得到的相对运动。一些快速的物体运动和翻转运动在这种场景下不容易得到。同时物体的姿态还可能通过基于整张图片定位得到的相机运动推测出来(如SLAM)。所以并不适合全面地评估动态物体6D姿态跟踪的方法。因此, 本文还提出了一个全新的YCBInEOAT数据集, 采集了不同机器人操纵场景下动态物体相对于静止相机的运动, 包括多种YCB物体和不同的操纵任务和机械手。

相关资源

代码和数据集: 

https://github.com/wenbowen123/iros20-6d-pose-tracking

视频:

https://www.youtube.com/watch?v=dhqM0hZmGR4

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/128153
推荐阅读
相关标签
  

闽ICP备14008679号