赞
踩
标题:Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
论文地址:https://arxiv.org/pdf/2303.04137.pdf
项目地址:https://diffusion-policy.cs.columbia.edu
单位:哥伦比亚大学
引入扩散模型
(duffision model),输入一段观测序列
,输出未来一段时间的行为序列
,在机器人操作数据集上学习,即模仿学习或监督学习。相比于现在常用的模仿学习方法LSTM-GMM、IBC(Implicit behavioral cloning)、BET(Behavior transformers),在多个仿真和真实实验上提升约46.9%
,在多个真实实验中与人类水平相近,方法结构如下:
采用CNN结构和Transformer架构分别构建了扩散模型,观测序列是图像或状态向量。
相比于以前的方法,该方法主要有以下提升:
类对比学习损失
来优化基于能量的模型,其中负样本采样过程的不精确导致训练不稳定,扩散模型绕过了负样本采样过程,直接预测输出信息的梯度(即噪声,扩散模型不太熟,梯度和噪声有什么关系?)除此之外,作者引入以下技术来发挥扩散模型的潜在能力:
更详细的信息请看论文和网站。
机器人操作领域发论文的热点又来了。
扩散模型大概率很难和强化学习结合,因为强化学习需要网络足够小从而在每次更新的很短时间内收敛,不过基于扩散模型的动力学模型可以试试。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。