赞
踩
本文仅是个人对该文章的阅读总结,并不能全篇概括作者的精华,还需大家详细阅读原文
---------------------------------------------------------------------------------------------------------------------------------
问题:模仿学习为教授机器人灵巧技能提供了一种高效途径,但是学习复杂的、具有普适性的技能通常需要大量的人类示范
解决:3D扩散策略(DP3)将3D视觉表示的强大之处融入到扩散策略中,这是一类有条件的动作生成模型。
核心:利用高效的点编码器从稀疏点云中提取紧凑的3D视觉表示。
取得成果:
(1)在涉及 72 个模拟任务的实验中,DP3仅使用 10 个示范就成功处理了大多数任务,并且相对于基线方法取得了 55.3% 的相对改进。
(2)在 4 个真实机器人任务中,DP3仅使用每个任务 40 个示范就展示了精确控制,成功率高达 85%,并且在空间、视点、外观和实例等多个方面展现了出色的泛化能力。
(3)DP3很少违反安全要求。
问题定义:
视觉运动策略 π : O → A
视觉观察 o ∈ O
动作 a ∈ A
DP3组成:
(1)Perception:DP3利用点云数据感知环境,并利用高效的点编码器将这些视觉观测结果处理成视觉特征;
(2)Decision:DP3利用了expressive Diffusion Policy 作为动作生成的支干,该策略根据我们的3D视觉特征生成动作序列。
证明DP3的泛化能力:
目标:让手持器准确的到达指定目标点
为了评估模仿学习算法不仅适应训练数据的有效性,还要泛化到新场景的能力,在3D空间中可视化了•训练点和•成功评估点
仅用五个训练点,DP3就能到达分布在3D空间中的点,展示了DP3在数据有限的情况下的优越泛化能力和效率。
DP3侧重于仅使用单视图摄像机对所有任务进行策略学习。
使用轻量级MLP网络将点云编码为紧凑的3D表示
仿真与现实场景之间仍然存在显著差距
(1)真实机器人实验的重要性
(2)大规模多样化模拟任务的必要性 收集了7个领域的72个任务,涵盖了不同的机器人技能,(双手动操作、可变形对象操作、铰接对象操作、平行抓手操作)
专家演示是由强化学习(RL)
对每个实验使用seeds号为 0、1、2 运行 3 个seeds。对于每个seeds,我们在每 200 个训练epochs次评估 20 个 episode,然后计算最高的 5 个成功率的平均值。我们报告了在 3 个seeds上成功率的平均值和标准差。
在以下三个方面DP3表现出惊人的效率:
虽然每个任务都训练了3000个epoch,但是观察发现DP3在所有任务大概300 epoch已经达到收敛 相反,扩散策略倾向于以慢得多的速度收敛或收敛到次优结果。
DP3实现的推理速度略微超过扩散策略,这主要归功于使用稀疏点云和紧凑的3D表示。
选择了6个任务进行消融实验:
Adroit [ Hammer (H), Door (D), Pen (P) ];
MetaWorld [ Assembly (A), Basketball (B), Shelf Place (S) ]
这些任务包括高维和低维控制任务,每个任务只使用10个演示
实验3:DP3设计
(a) 对点云进行裁剪在很大程度上提高了准确性;
(b) 整合 LayerNorm 层可以帮助稳定不同任务之间的训练;
(c) 在噪声采样器中进行样本预测可以加快收敛速度;
(d) DP3 编码器中的投影头通过将特征投影到较低维度加速了推断,而不会影响准确性;
(e) 移除颜色通道确保了鲁棒的外观泛化;
(f) 在低维控制任务中,作为噪声采样器的 DPM-solver++ 与 DDIM 竞争力相当,而 DPMsolver++ 不能很好地处理高维控制任务。
我们希望研究专家的行为方式是否会影响模仿学习方法的性能。为此,我们分别在 MetaWorld 任务中使用 RL 训练的代理和脚本策略生成演示,并在这些演示上进行训练。我们可以观察到,一个更好的专家通常能够帮助使用模仿学习算法训练出更好的策略,但 DP3 与地面真值专家之间仍然存在差距。
真实场景实验可以之间看论文,这里就不针对该章节,进行详细描述了
尽管已经开发了一种高效的架构,但控制的最佳 3D 表示仍然有待发现。此外,本文未深入探讨具有极长视角的任务,这留给未来的探索。(未来继续加油)
---------------------------------------------------------------------------------------------------------------------------------
论文地址:
https://arxiv.org/abs/2403.03954
Github:(作者的github写的非常详细,常见错误的解决方法都写出来了)
GitHub - YanjieZe/3D-Diffusion-Policy: [arXiv 2024] 3D Diffusion Policy
项目地址:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。