赞
踩
论文的主要贡献是介绍了Act3D,这是一个用于多任务机器人操控的策略transformer,它使用自适应分辨率的3D特征场来表示机器人的工作空间。
从演示中学习机器人操控: 近年来的研究工作主要集中在训练多任务操控策略,这些策略利用Transformer架构从视频输入和语言指令中预测机器人动作。例如,RT1、GATO、BC-Z和InstructRL等端到端的图像到动作策略模型,它们直接从2D视频中预测6-DoF末端执行器姿态和语言输入。这些方法需要大量的演示来学习空间推理,并能够泛化到新的环境布局。
特征预训练用于机器人操控: 许多2D策略架构通过使用预训练或微调的2D图像骨干网络来提高从演示中学习的效率。预训练的视觉-语言骨干网络可以提高对新指令、物体和场景的泛化能力。相比之下,目前的3D策略模型通常是从彩色点云输入中从头开始训练的。Act3D使用CLIP预训练的2D骨干网络来特征化2D图像视图,并使用感知深度将2D特征提升到3D。
相对注意力层: 在2D视觉理解和语言任务中,相对注意力已经显示出改善性能的潜力。在3D中,由于坐标系统是任意的,相对注意力变得尤为重要。3D相对注意力已经在3D Transformer架构中用于物体检测和点标记。本文展示了相对注意力显著提高了模型的性能。
模型架构:Act3D是一个策略变换器,它在给定时间步长t时,根据一个或多个RGB-D图像、语言指令以及有关机器人当前末端执行器姿态的本体感知信息,预测6-DoF末端执行器姿态。模型的核心思想是通过 迭代的粗到细3D点采样和特征化 来估计高分辨率的3D动作图,从而学习自由空间的3D感知表示。
视觉和语言编码器:Act3D使用大规模预训练的2D特征提取器和特征金字塔网络,将多视角RGB-D图像映射到多尺度3D场景特征云中。模型利用深度信息将2D特征向量“提升”到3D空间。语言编码器则利用预训练的语言编码器对指令进行特征化。
迭代3D点采样和特征化:Act3D的关键思想是通过相对空间交叉注意力,对3D空间中的“幽灵点”(ghost points)进行采样、特征化和评分,以此估计高分辨率的3D动作图。模型首先在整个工作空间中粗略采样,然后在前一次迭代中被关注点的附近进行精细采样。
相对3D交叉注意力:Act3D通过交叉注意力独立地对每个3D幽灵点和参数化查询(用于选择下一个最佳末端执行器位置)进行特征化。这种注意力机制使用相对3D位置信息,并通过旋转位置嵌入高效实现。
解码动作:模型通过与参数化查询的内积来评分幽灵点标记,选择其中一个作为下一个最佳末端执行器位置(可考虑diffusion)。然后,模型从上一次迭代的参数化查询中回归末端执行器的方向、开合状态,以及运动规划器是否需要避免碰撞以达到姿态。
训练过程:Act3D通过从操控演示数据集中随机采样输入-动作元组,并监督模型预测给定观察和目标的关键姿态动作来进行训练。模型在训练过程中使用多个幽灵点采样阶段,并且在推理时可以通过采样比训练时更多的幽灵点来提高性能。
我们在单任务设置中执行了 5 项任务的大部分消融:
宏观动作预测器的作用:
宏观动作预测器负责预测机器人在执行长期任务时的关键动作(宏动作),这些宏动作定义了任务完成的高层次步骤。这种预测需要对视觉环境和任务目标有一个全局的理解。
基于Act3D的方法:
ChainedDiffuser的宏观动作预测器基于Act3D,这是一种先进的宏动作预测方法,使用基于点的变换器来处理末端执行器动作预测任务。Act3D通过迭代采样3D点候选物,并使用相对位置注意力对场景的3D特征云进行特征化,从而预测宏动作。
迭代采样和特征化:
宏观动作预测器通过迭代采样3D点候选物,并使用相对位置注意力机制对它们进行特征化。这些点候选物 point candidates Z_point 首先在机器人的工作空间内均匀采样,只包含3D位置信息和一个可训练的特征嵌入。然后,查询标记(query token)和点候选物分别关注语言标记、视觉特征标记和本体感知标记的组合。
language tokens Zins, visual feature tokensZvis and proprioception token Zrobo
查询标记和点候选物通过注意力操作捕获任务和场景信息。具体来说,查询标记和点候选物使用点积(dot product)来评分,选择与查询标记最匹配的点候选物作为预测宏动作的位置。
一旦获得了最佳的点候选物,宏观动作预测器就会使用一个简单的多层感知机(MLP)来预测宏动作的旋转和夹持器状态。
一旦我们获得了当前步骤t的宏动作,我们调用基于扩散的局部轨迹生成器来用微动作填补中间的空白。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。