当前位置:   article > 正文

GraspNet-1Billion

graspnet

目录

.1 intro

.2 Dataset

 2.1 data collection:

2.2 data annotation

2.3 evaluation

.3 backbone 

3.1 Training and Inference

3.2 Experiment

References

.1 intro

contribution:

  1. 一个具有统一评价体系的大规模抓取姿态检测数据集

  2. 评估系统通过解析计算直接报告抓取是否成功,它可以评估任何一种抓取姿势,而不需要穷尽地标注ground truth

  3. 一种end2end的抓取姿态预测网络,在该网络中,以一种确定的方式来学习逼近方向和操作参数。

  4. 为了提高抓取的稳健性,设计了一种新型抓取亲和场。

Intro:

难点1.抓取姿态有不同的表示,包括矩形和6D姿态表示

 难点2:很难获得大规模高质量的训练数据

创新:

1.构建数据集的方法。我们用真实世界的传感器收集数据,并通过解析计算为每个单独的物体标注抓取姿势。手动注释对象6D姿势以将抓取姿势从对象坐标投影到场景坐标。这种方法极大地减少了标注抓握姿势的劳动。我们的数据集既有密集的注释,又与真实世界视觉上一致。

 

2.为了更好地进行几何推理和上下文编码,我们提出了一种端到端的3D抓取姿态检测网络。该网络不是直接预测抓取姿态矩阵,而是寻求一种更稳健的学习方式,在统一目标下显式学习逼近方向和操作参数(如面内旋转、抓取宽度)。它采用了一种新的抓取姿势表示,而不是直接回归

3.此外,为了提高抓取姿态的抗扰性,提出了抓取亲和场的新表示法,使网络具有较强的抗扰动能力。

下图为论文解决思路

 

related work:

1.基于抓取预测算法的深度学习

->根据图像输入检测可抓取的矩形(基于平面)

->基于6D位姿估计,并将预先定义的抓握姿势投射到场景中(需要预先知道抓取物体的形状)

->在部分观察到的点云上抓取候选对象,并使用3D CNN输出每个候选对象的分类分数。

2.抓取数据集

-> 矩形标注(人工标注)的抓取数据集(cornell)

-> 用机器人执行抓取,获得抓取数据集(google那篇工作)

-> 仿真标注(dex-net) ,但是问题是传感器差距会导致问题

-> 像素级标注affordance(GraspSeg)

3.基于点云的深度学习

-> 原始点云学习(PointNet)

-> 分割分类(Point系列)

->抓取位置预测(S4G)

.2 Dataset

 

该数据集包含88个具有高质量3D网格模型的日常对象。这些图像是从190个杂乱的场景中收集的,每个场景都贡献了两个不同摄像头拍摄的512张RGB-D图像,总共带来了97,280张图像。

对于每幅图像,通过力闭合的解析计算来密集地标注6-DOF抓取姿势[29]。每个场景的抓握姿势从300万到900万不等,我们的数据集总共包含超过11亿个抓握姿势。

此外,还提供了精确的对象6D姿势标注、基于矩形的抓取姿势、对象蒙版和包围盒。每一帧还与一个相机姿势相关联,因此可以很容易地融合多个视点云。

 2.1 data collection:

场景设置:对于每个场景,我们从整个对象集中随机挑选大约10个对象,并以杂乱的方式放置它们。

标定方式:相机在机械臂上。

2.2 data annotation

6D Pose Annotation:

每个场景的第一帧注释6D姿势。6d姿态将传播到剩余帧。

grasp pose annotation:

力闭合

2.3 evaluation

数据集拆分:共190个场景,100个用于训练集,90个用于测试集。测试集中30个用于见过的物体,30个用于没见过但相似的物体,30个用于新物体。

对于每个预测的抓取姿势ˆPI,我们通过检查抓取器内部的点云将其与目标对象相关联。然后,类似于抓取标注的生成过程,在给定不同的µ的情况下,我们可以通过力闭合度量得到每个抓取姿势的二进制标签。

.3 backbone 

 

end2end网络架构;

点云输入然后编码提取M个点然后解码输出这M个点

采用PointNet++,N×3大小的原始点云作为输入,输出一组新的具有C个特征的点(3+c)

输入M个(3+c)通过Approachnet,输出M个(2+v),2表示是否可掌握的二进制类,V表示预定义接近向量的数量。

组合M个(3+c)和M个(2+v)--生成圆柱形的抓取区域,每个区域里ni个抓取点(ni*(3+c))

把ni*(3+c)[圆柱区域]输入Operation Network和Tolerance Network

Operation Network 把ni*(3+c)分成K个区域 每个区域有R个抓取位姿 输出 K个R*3

Tolerance Network 筛选出好的抓取位姿 输出 每个K最好的R

最后结合 Operation Network和Tolerance Network的输出进行过滤,输出K个Grasps

Loss Function 候选点可以被抓取条件:

1.点是否在物体上

2.在半径5mm的范围内至少具有一个可抓取ground-truth

3.1 Training and Inference

通过根据抓取分数将抓取姿势划分为10个类来优化抓取姿势

最后inference的时候,输入点输出可抓取位姿

3.2 Experiment

References:

论文阅读|GraspNet-1Billion - 知乎

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/115922
推荐阅读
相关标签
  

闽ICP备14008679号