赞
踩
目录
contribution:
一个具有统一评价体系的大规模抓取姿态检测数据集
评估系统通过解析计算直接报告抓取是否成功,它可以评估任何一种抓取姿势,而不需要穷尽地标注ground truth
一种end2end的抓取姿态预测网络,在该网络中,以一种确定的方式来学习逼近方向和操作参数。
为了提高抓取的稳健性,设计了一种新型抓取亲和场。
Intro:
难点1.抓取姿态有不同的表示,包括矩形和6D姿态表示
难点2:很难获得大规模高质量的训练数据
创新:
1.构建数据集的方法。我们用真实世界的传感器收集数据,并通过解析计算为每个单独的物体标注抓取姿势。手动注释对象6D姿势以将抓取姿势从对象坐标投影到场景坐标。这种方法极大地减少了标注抓握姿势的劳动。我们的数据集既有密集的注释,又与真实世界视觉上一致。
2.为了更好地进行几何推理和上下文编码,我们提出了一种端到端的3D抓取姿态检测网络。该网络不是直接预测抓取姿态矩阵,而是寻求一种更稳健的学习方式,在统一目标下显式学习逼近方向和操作参数(如面内旋转、抓取宽度)。它采用了一种新的抓取姿势表示,而不是直接回归
3.此外,为了提高抓取姿态的抗扰性,提出了抓取亲和场的新表示法,使网络具有较强的抗扰动能力。
下图为论文解决思路
related work:
1.基于抓取预测算法的深度学习
->根据图像输入检测可抓取的矩形(基于平面)
->基于6D位姿估计,并将预先定义的抓握姿势投射到场景中(需要预先知道抓取物体的形状)
->在部分观察到的点云上抓取候选对象,并使用3D CNN输出每个候选对象的分类分数。
2.抓取数据集
-> 矩形标注(人工标注)的抓取数据集(cornell)
-> 用机器人执行抓取,获得抓取数据集(google那篇工作)
-> 仿真标注(dex-net) ,但是问题是传感器差距会导致问题
-> 像素级标注affordance(GraspSeg)
3.基于点云的深度学习
-> 原始点云学习(PointNet)
-> 分割分类(Point系列)
->抓取位置预测(S4G)
该数据集包含88个具有高质量3D网格模型的日常对象。这些图像是从190个杂乱的场景中收集的,每个场景都贡献了两个不同摄像头拍摄的512张RGB-D图像,总共带来了97,280张图像。
对于每幅图像,通过力闭合的解析计算来密集地标注6-DOF抓取姿势[29]。每个场景的抓握姿势从300万到900万不等,我们的数据集总共包含超过11亿个抓握姿势。
此外,还提供了精确的对象6D姿势标注、基于矩形的抓取姿势、对象蒙版和包围盒。每一帧还与一个相机姿势相关联,因此可以很容易地融合多个视点云。
场景设置:对于每个场景,我们从整个对象集中随机挑选大约10个对象,并以杂乱的方式放置它们。
标定方式:相机在机械臂上。
6D Pose Annotation:
每个场景的第一帧注释6D姿势。6d姿态将传播到剩余帧。
grasp pose annotation:
力闭合
数据集拆分:共190个场景,100个用于训练集,90个用于测试集。测试集中30个用于见过的物体,30个用于没见过但相似的物体,30个用于新物体。
对于每个预测的抓取姿势ˆPI,我们通过检查抓取器内部的点云将其与目标对象相关联。然后,类似于抓取标注的生成过程,在给定不同的µ的情况下,我们可以通过力闭合度量得到每个抓取姿势的二进制标签。
end2end网络架构;
点云输入然后编码提取M个点然后解码输出这M个点
采用PointNet++,N×3大小的原始点云作为输入,输出一组新的具有C个特征的点(3+c)
输入M个(3+c)通过Approachnet,输出M个(2+v),2表示是否可掌握的二进制类,V表示预定义接近向量的数量。
组合M个(3+c)和M个(2+v)--生成圆柱形的抓取区域,每个区域里ni个抓取点(ni*(3+c))
把ni*(3+c)[圆柱区域]输入Operation Network和Tolerance Network
Operation Network 把ni*(3+c)分成K个区域 每个区域有R个抓取位姿 输出 K个R*3
Tolerance Network 筛选出好的抓取位姿 输出 每个K最好的R
最后结合 Operation Network和Tolerance Network的输出进行过滤,输出K个Grasps
Loss Function 候选点可以被抓取条件:
1.点是否在物体上
2.在半径5mm的范围内至少具有一个可抓取ground-truth
通过根据抓取分数将抓取姿势划分为10个类来优化抓取姿势
最后inference的时候,输入点输出可抓取位姿
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。