当前位置:   article > 正文

【Diffusion policy】_chaineddiffuser

chaineddiffuser

1. Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation

论文的主要贡献是介绍了Act3D,这是一个用于多任务机器人操控的策略transformer,它使用自适应分辨率的3D特征场来表示机器人的工作空间。

摘要和结论

  • 3D 感知表示非常适合机器人操作,因为它们可以轻松编码遮挡并简化空间推理。许多操纵任务在末端执行器姿态预测中需要高空间精度,这通常需要高分辨率的 3D 特征网格,而处理起来的计算成本很高。因此,大多数操纵策略直接在 2D 中运行,而忽略了 3D 归纳偏差。
  • 在本文中,我们介绍了 Act3D,这是一种manipulation policy transformer,它使用 3D 特征场来表示机器人的工作空间,其自适应分辨率取决于手头的任务。该模型使用感测深度将 2D 预训练特征提升到 3D,并利用它们来计算采样 3D 点的特征。它以从粗到细的方式对 3D 点网格进行采样,使用相对位置注意力对其进行特征化,并选择下一轮点采样的聚焦位置。通过这种方式,它可以有效地计算高空间分辨率的 3D 动作图

引言

从演示中学习机器人操控: 近年来的研究工作主要集中在训练多任务操控策略,这些策略利用Transformer架构从视频输入和语言指令中预测机器人动作。例如,RT1、GATO、BC-Z和InstructRL等端到端的图像到动作策略模型,它们直接从2D视频中预测6-DoF末端执行器姿态和语言输入。这些方法需要大量的演示来学习空间推理,并能够泛化到新的环境布局。

特征预训练用于机器人操控: 许多2D策略架构通过使用预训练或微调的2D图像骨干网络来提高从演示中学习的效率。预训练的视觉-语言骨干网络可以提高对新指令、物体和场景的泛化能力。相比之下,目前的3D策略模型通常是从彩色点云输入中从头开始训练的。Act3D使用CLIP预训练的2D骨干网络来特征化2D图像视图,并使用感知深度将2D特征提升到3D。

相对注意力层: 在2D视觉理解和语言任务中,相对注意力已经显示出改善性能的潜力。在3D中,由于坐标系统是任意的,相对注意力变得尤为重要。3D相对注意力已经在3D Transformer架构中用于物体检测和点标记。本文展示了相对注意力显著提高了模型的性能。

模型框架

在这里插入图片描述

模型架构:Act3D是一个策略变换器,它在给定时间步长t时,根据一个或多个RGB-D图像、语言指令以及有关机器人当前末端执行器姿态的本体感知信息,预测6-DoF末端执行器姿态。模型的核心思想是通过 迭代的粗到细3D点采样和特征化 来估计高分辨率的3D动作图,从而学习自由空间的3D感知表示。

视觉和语言编码器:Act3D使用大规模预训练的2D特征提取器特征金字塔网络,将多视角RGB-D图像映射到多尺度3D场景特征云中。模型利用深度信息将2D特征向量“提升”到3D空间。语言编码器则利用预训练的语言编码器对指令进行特征化。

迭代3D点采样和特征化:Act3D的关键思想是通过相对空间交叉注意力,对3D空间中的“幽灵点”(ghost points)进行采样、特征化和评分,以此估计高分辨率的3D动作图。模型首先在整个工作空间中粗略采样,然后在前一次迭代中被关注点的附近进行精细采样。

相对3D交叉注意力:Act3D通过交叉注意力独立地对每个3D幽灵点和参数化查询(用于选择下一个最佳末端执行器位置)进行特征化。这种注意力机制使用相对3D位置信息,并通过旋转位置嵌入高效实现

解码动作:模型通过与参数化查询的内积来评分幽灵点标记,选择其中一个作为下一个最佳末端执行器位置(可考虑diffusion)。然后,模型从上一次迭代的参数化查询中回归末端执行器的方向、开合状态,以及运动规划器是否需要避免碰撞以达到姿态。

训练过程:Act3D通过从操控演示数据集中随机采样输入-动作元组,并监督模型预测给定观察和目标的关键姿态动作来进行训练。模型在训练过程中使用多个幽灵点采样阶段,并且在推理时可以通过采样比训练时更多的幽灵点来提高性能。

在这里插入图片描述

实验

  1. 在具有不同数量的训练演示的单任务和多任务设置中,Act3D 与 SOTA 2D 多视图和 3D 操作策略相比如何?
  2. 与之前的 2D 多视图策略相比,Act3D 如何泛化跨摄像机视点?
  3. 相对 3D 注意力、预训练的 2D 主干、权重绑定注意力层以及从粗到细采样阶段的数量等设计选择如何影响性能?

在这里插入图片描述

我们在单任务设置中执行了 5 项任务的大部分消融:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2. ChainedDiffuser: Unifying Trajectory Diffusion and Keypose Prediction for Robotic Manipulation

摘要和结论

在这里插入图片描述

引言

在这里插入图片描述

模型框架

在这里插入图片描述


3.2 Macro-Action Predictor

在这里插入图片描述
宏观动作预测器的作用:
宏观动作预测器负责预测机器人在执行长期任务时的关键动作(宏动作),这些宏动作定义了任务完成的高层次步骤。这种预测需要对视觉环境和任务目标有一个全局的理解。

基于Act3D的方法:
ChainedDiffuser的宏观动作预测器基于Act3D,这是一种先进的宏动作预测方法,使用基于点的变换器来处理末端执行器动作预测任务。Act3D通过迭代采样3D点候选物,并使用相对位置注意力对场景的3D特征云进行特征化,从而预测宏动作。

迭代采样和特征化:
宏观动作预测器通过迭代采样3D点候选物,并使用相对位置注意力机制对它们进行特征化。这些点候选物 point candidates Z_point 首先在机器人的工作空间内均匀采样,只包含3D位置信息和一个可训练的特征嵌入。然后,查询标记(query token)和点候选物分别关注语言标记、视觉特征标记和本体感知标记的组合。

language tokens Zins, visual feature tokensZvis and proprioception token Zrobo

在这里插入图片描述
查询标记和点候选物通过注意力操作捕获任务和场景信息。具体来说,查询标记和点候选物使用点积(dot product)来评分,选择与查询标记最匹配的点候选物作为预测宏动作的位置。

在这里插入图片描述

一旦获得了最佳的点候选物,宏观动作预测器就会使用一个简单的多层感知机(MLP)来预测宏动作的旋转和夹持器状态。

在这里插入图片描述


3.3 Local Trajectory Diffuser

在这里插入图片描述
一旦我们获得了当前步骤t的宏动作,我们调用基于扩散的局部轨迹生成器来用微动作填补中间的空白。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

实验

在这里插入图片描述

在这里插入图片描述

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号