机器人操作——diffusion policy（2023）

作者：羊村懒王 | 2024-03-24 01:00:07

踩

diffusion policy

论文地址

标题：Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
论文地址：https://arxiv.org/pdf/2303.04137.pdf
项目地址：https://diffusion-policy.cs.columbia.edu
单位：哥伦比亚大学

创新点

引入扩散模型(duffision model)，输入一段观测序列，输出未来一段时间的行为序列，在机器人操作数据集上学习，即模仿学习或监督学习。相比于现在常用的模仿学习方法LSTM-GMM、IBC（Implicit behavioral cloning）、BET（Behavior transformers），在多个仿真和真实实验上提升约46.9%，在多个真实实验中与人类水平相近，方法结构如下：在这里插入图片描述
采用CNN结构和Transformer架构分别构建了扩散模型，观测序列是图像或状态向量。
相比于以前的方法，该方法主要有以下提升：

处理多峰action分布。由于扩散模型在噪声中采样初始action，并在后续优化过程中增加了高斯扰动，使其能够不陷入局部最优。
高维连续行为输出。扩散模型天生就能输出高维信息。
训练稳定。以前的模仿学习方法大多采用类对比学习损失来优化基于能量的模型，其中负样本采样过程的不精确导致训练不稳定，扩散模型绕过了负样本采样过程，直接预测输出信息的梯度（即噪声，扩散模型不太熟，梯度和噪声有什么关系？）

除此之外，作者引入以下技术来发挥扩散模型的潜在能力：

引入receding-horizon control实现闭环规划。
直接输入视觉信息，通过视觉编码器提取特征，与扩散模型进行端到端训练。
针对CNN模型过于平滑的问题，构建Time-series diffusion transformer来处理需要高频行为变化的任务。

更详细的信息请看论文和网站。

总结

机器人操作领域发论文的热点又来了。
扩散模型大概率很难和强化学习结合，因为强化学习需要网络足够小从而在每次更新的很短时间内收敛，不过基于扩散模型的动力学模型可以试试。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/298848