赞
踩
论文:
Lightweight Convolutional Neural Network with Gaussian-based Grasping Representation for
Robotic Grasping Detection
摘要:
在本文中,我们提出了一种高效、鲁棒的全卷积神经网络模型,用于从真实抓取场景的n通道输入图像进行机器人抓取姿态估计。所提出的网络是一种轻量级的生成架构,用于在一个阶段中抓取检测。具体地说,引入了基于Guassian核的抓取表示对训练样本进行编码,体现了最大中心点抓取置信度原则。同时,为了提取多尺度信息和增强特征识别能力,我们在抓取检测体系结构的瓶颈处装配了一个接收场块(RFB)。此外,结合像素注意和通道注意,通过抑制噪声特征和突出抓取对象特征,自动学习聚焦于融合不同形状和大小的上下文信息。
介绍:
基于有向矩形的抓取表示方法:
基于分类的方法:
基于回归的方法:
基于检测的方法:
基于接触点的抓取表示方法:
机器人抓取系统:
机器人抓取系统通常由机器人手臂、感知传感器、抓取物体和工作空间组成。为了成功地完成抓取任务,不仅需要获取物体的抓取姿态,还需要规划和控制子系统。在抓取检测部分,我们考虑将机械手限制到工作空间的法线方向,从而使其成为2D空间中的感知目标。通过此设置,通过将大多数抓取对象合理地放置在工作台上,可以将其视为平面对象。整个抓取系统不需要构建三维点云数据,可以降低存储和计算成本,提高操作能力。平面对象的抓取姿势可以视为矩形。由于每个平板夹持器的尺寸是固定的,因此我们使用第II-B节中提到的简化抓取表示来执行抓取姿势估计。
基于高斯的抓取表示:
对于给定的RGB图像或不同物体的深度信息,抓取检测系统应该学习如何为后续任务获得最佳抓取配置。许多工作,如[29]、[10]、[12],都是基于五维抓取表示来生成抓取姿势。
g={x, y, θ, w, h}
其中,(x,y)是中心点的坐标,θ表示抓取矩形的方向,抓取矩形的重量和高度用4(w,h)表示。矩形盒是目标检测中常用的方法,但它不适合抓取检测任务。由于夹持器的尺寸通常是一个已知变量,因此[14]中介绍了一种简化表示法,用于高精度实时机器人抓取。提出了一种新的三维姿态抓取表示方法
g={p, ϕ, w, q}
中,笛卡尔坐标系中的中心点位置为p=(x,y,z)。ϕ和w分别测量夹具围绕轴的旋转角度以及夹具的打开和关闭距离。由于五维抓取表征缺乏评价抓取质量的尺度因子,因此在新表征中加入了q作为衡量抓取成功概率的尺度。此外,二维空间中新抓取表示的定义可以描述为:
g={ˆp,ˆϕ,ˆw,ˆq}
式中,ˆp=(u,v)表示图像坐标中的中心点。ˆа表示摄像机框架中的方向。ˆw和ˆqstill分别表示夹具的打开和关闭距离以及抓取质量。当我们知道抓取系统的校准结果时,抓取姿态可以通过矩阵运算转换为世界坐标,
g=TRC(TCI(ˆg))
其中,trc和tcire分别将相机帧的变换矩阵表示为世界帧,将二维图像空间表示为相机帧。此外,图像空间中的抓取映射表示为:
G={Φ, W, Q} ∈R^(3×W×H)
方法:
基本网络架构:
感受野阻滞模块
最后的网络层由4个内核大小为3x3的特定于任务的卷积滤波器组成。最终输出结果可按公式10给出。
其中,中心点的位置是最大抓取质量gq的像素坐标,抓取器的打开和关闭距离为gw,抓取角度可通过gangle=arctan(gsin(2θ)gcos(2θ))/2计算。
多尺度感受野阻滞模块:
多维注意融合网络:
损失函数:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。