当前位置:   article > 正文

大模型时代的具身智能系列专题(五)_宋舒然 斯坦福

宋舒然 斯坦福

stanford宋舒然团队

宋舒然是斯坦福大学的助理教授。在此之前,他曾是哥伦比亚大学的助理教授,是Columbia Artificial Intelligence and Robotics Lab的负责人。他的研究聚焦于计算机视觉和机器人技术。本科毕业于香港科技大学。曾三年内接连拿下RSS 2019最佳系统论文奖、T-RO 2020最佳论文奖、CoRL 2021最佳系统论文奖(FlingBot),相关工作还获得了IROS 2018、RSS 2019、CVPR 2019、ICRA 2020等顶级会议的最佳论文提名,2022年获斯隆研究奖。

主题相关作品

  • diffusion policy
  • UMI
  • IRP
  • FlingBot

近期作品diffusion policy一作为其博士生迟宬。UMI引入了手持夹持器,并继续采用diffusion policy。

diffusion policy

扩散策略是一种生成机器人行为的新方法,它将机器人的视觉运动策略(visuomotor policy)表示为条件去噪扩散过程(conditional denoising diffusion process)。在 4 个不同的机器人操纵基准中的 15 个不同任务中对 Diffusion Policy 进行了基准测试,发现它平均提高了 46.9%。Diffusion Policy 可以学习动作分布得分函数的梯度(gradient of the action-distribution score),并在推理过程中通过一系列随机Langevin动力学步骤对该梯度场进行迭代优化。扩散公式在用于机器人策略时具有强大的优势,包括可以优雅地处理多模态动作分布、适用于高维动作空间,以及表现出令人印象深刻的训练稳定性。本文提出了一系列关键技术贡献,包括递减视界控制receding horizon control(MPC控制)、视觉调节(visual conditioning)和时间序列扩散transformer。
fig1

之前的研究试图通过图 1 a)显示策略(高斯混合、量化动作的分类表示法)或者图 1 b)从显式转换为隐式,以更好地捕捉多模态分布。本方法通过引入一种新形式的机器人视觉运动策略来应对这一挑战,即通过 “机器人动作空间上的条件去噪扩散过程”(Diffusion Policy)来生成行为。在这种方法中,策略不是直接输出动作,而是根据视觉观察结果,在 K 次去噪迭代中推导出动作分数梯度(图 1 c)。

扩散模型的几个关键特性:

  • Expressing multimodal action distributions。通过学习动作得分函数的梯度,并在此梯度场上执行随机Langevin动力学采样,扩散策略可以表达任意可归一化分布,其中包括多模态动作分布。

  • High-dimensional output space。扩散模型在高维输出空间中具有卓越的可扩展性。这一特性允许策略联合推断一系列未来行动,而不是单步行动,这对于鼓励时间行动一致性和避免短视的规划至关重要。

  • 稳定的训练。训练基于能量的策略通常需要负采样来估计一个难以处理的归一化常数,而这会导致训练的不稳定性。扩散策略通过学习能量函数的梯度绕过了这一要求,从而在保持分布表达性的同时实现了稳定的训练。

Method

将视觉运动机器人策略制定为去噪扩散概率模型(DDPMs)。关键是,扩散策略能够表达复杂的多模态动作分布,并具有稳定的训练行为–几乎不需要针对特定任务进行超参数调整。

Denoising Diffusion Probabilistic Models

DDPM 是一类生成模型,其输出生成被模拟为一个去噪过程,通常称为随机Langevin动力学。

从高斯噪声采样的 x K x^K xK开始,DDPM 执行 K 次迭代去噪,产生一系列噪声水平递减的中间动作 x k , x k − 1 . . . x 0 x^k,x^{k-1}...x^0 xk,xk1...x0,直到形成所需的无噪声输出 x 0 x^0 x0。该过程遵循公式:
eq1
其中, ε θ ε_θ εθ 是噪声预测网络,将通过学习进行优化, N ( 0 , σ 2 ) N(0, σ^2) N(0,σ2)是每次迭代时添加的高斯噪声。上述公式 1 也可以解释为一个单一的噪声梯度下降步骤:
eq2
其中噪声预测网络 ε θ ( x , k ) ε_θ (x, k) εθ(x,k) 有效地预测了梯度场 ∇E(x),γ 是学习率。作为迭代步数 k 的函数,α、γ、σ 的选择也称为噪声调度(noise schedule),可以解释为梯度赋值过程中的学习率调度。事实证明,α 略小于 1 可以提高稳定性。

DDPM Training

训练过程的第一步是从数据集中随机抽取未经修改的样本 x 0 x^0 x0。对于每个样本,我们随机选择一个去噪迭代 k,然后为迭代 k 采样一个具有适当方差的随机噪声 ε k ε^k εk。噪声预测网络需要从添加了噪声的数据样本中预测噪声。
eq3
使用均方误差(MSE, Mean Squared Error)作为损失函数,来衡量网络的预测值 ε θ ( x 0 + ε k , k ) ε_θ(x^0+ε^k, k) εθ(x0+εk,k) 和实际噪声 ε k ε^k εk之间的差异。

Diffusion for Visuomotor Policy Learning

fig2

DDPM 通常用于生成图像(x 是一幅图像),使用 DDPM 来学习机器人视觉运动策略需要对公式进行两大修改: 1. 将输出 x 改为代表机器人动作。2. 使去噪过程以输入观测 O t O_t Ot 为条件。图 2 显示了相关概述。

闭环行动序列预测:有效的行动表述应鼓励长视距规划的时间一致性和平稳性,同时允许对意外观察做出迅速反应。为此,在重新规划之前,会在固定时间内使用扩散模型生成的行动序列预测。具体来说,在时间步长 t 处,策略将最新的 T o T_o To 步观测数据 O t O_t Ot 作为输入,并预测出 T p T_p Tp步行动,其中 T a T_a Ta 步行动将在机器人身上执行,无需重新规划。在这里,我们将 T o T_o To 定义为观察期, T p T_p Tp 定义为行动预测期, T a T_a Ta 定义为行动执行期。这样既能保证行动的时间一致性,又能保持反应灵敏。我们还使用receding horizon control通过使用之前的行动序列预测来warm-starting下一个推理设置,从而进一步提高行动的平滑性。

视觉观测条件:我们使用 DDPM 来近似条件分布 p ( A t ∣ O t ) p(A_t |O_t ) p(AtOt) 而不是 联合分布 p ( A t , O t ) p(A_t , O_t ) p(At,Ot) 。这种表述方式使模型能够根据观察结果预测行动,而无需付出推断未来状态的代价,从而加快了扩散过程,提高了生成行动的准确性。为了捕捉条件分布 p ( A t ∣ O t ) p(A_t |O_t ) p(AtOt),我们将公式 1 修改为:
eq4
将公式 3 中的训练损失修改为:
eq5
从去噪过程的输出中排除观测特征 Ot 能显著提高推理速度,更好地适应实时控制。这也有助于使视觉编码器的端到端训练。

Key Design Decisions

Network Architecture Options

第一个设计决策是 ε θ ε_θ εθ 的神经网络架构选择。研究了两种常见的网络架构类型:CNNs和Transformers,并比较它们的性能和训练特性。
CNN-based Diffusion Policy。采用Janner et al. 的1D temporal CNN,并做了一些修改:首先,我们只对条件分布 p ( A t ∣ O t ) p(A_t |O_t) p(AtOt)进行建模,通过FiLM(Feature-wise Linear Modulation) 和去噪迭代k来调节观察特征 O t O_t Ot上的动作生成过程,如图2 (b)所示。其次,我们只预测动作轨迹,而不预测concat的观察动作轨迹。第三,我们删除了基于绘画的目标状态条件作用,因为它与我们利用超前预测视界的框架不兼容。然而,目标条件作用仍然可能与用于观察的相同的FiLM条件作用方法共用。实际上,基于 CNN 的骨干网络在大多数任务中都能很好地运行,无需进行过多的超参数调整。然而,当所需的动作序列随时间发生快速而剧烈的变化时(如速度指令动作空间),它的表现就会很差,这可能是由于时间卷积偏好低频信号的归纳偏差

Time-series diffusion transformer。为了减少CNN模型Tancik et al.中的过平滑效应,我们引入了一种新的基于transformer的DDPM,该模型采用minGPT Shafiullah et al.的变压器架构进行动作预测。带有噪声 A t k A^k_t Atk的动作作为transformer解码器块的输入tokens传入,扩散迭代k的正弦嵌入作为第一个token。通过共享MLP将观测值 O t O_t Ot转化为观测值嵌入序列,作为输入特征传递到transformer解码器堆栈中。“梯度” ε θ ( O t , A t k , k ) ε_θ (O_t,A_t^k,k) εθ(Ot,Atk,k)由解码器堆栈的每个相应输出tokens预测。在基于状态的实验中,大多数表现最佳的策略都是通过transformer主干实现的,尤其是在任务复杂度和行动变化率较高的情况下。然而,我们发现transformer对超参数更为敏感。未来有可能通过改进transformer训练技术或扩大数据规模来解决。

Recommendations。一般建议从基于 CNN 的扩散策略实施开始,作为新任务的首次尝试。如果由于任务复杂或动作变化率高而导致性能低下,则可以使用Time-series diffusion transformer来提高性能,但需要付出额外的tuning代价。

Visual Encoder

视觉编码器将原始图像序列映射为潜在嵌入 O t O_t Ot,并使用扩散策略进行端到端训练。不同的摄像机视角使用不同的编码器,每个时间步中的图像独立编码,然后串联形成 O t O_t Ot。我们使用标准 ResNet-18(无预训练)作为编码器,并做了以下修改: 1) 用spatial softmax pooling取代全局平均池化(global average pooling),以保持空间信息。2) 用 GroupNorm 取代 BatchNorm ,以获得稳定的训练。当归一化层与指数移动平均(Exponential Moving Average)结合使用时,这一点非常重要 (常用于 DDPMs)。

Noise Schedule

噪声表由 σ、α、γ 和加性高斯噪声 ε k ε^k εk 定义,是 k 的函数,Ho 等人(2020 年)、Nichol 和 Dhariwal(2021 年)对噪声表进行了积极研究。基本噪声表控制着扩散策略捕捉动作信号高频和低频特征的程度。在我们的控制任务中,我们根据经验发现,iDDPM中提出的平方余弦时间表(Square Cosine Schedule)最适合我们的任务。

Accelerating Inference for Real-time Control

我们使用扩散过程作为机器人的策略;因此,对于闭环实时控制来说,拥有快速的推理速度至关重要。Song 等人(2021 年)提出的去噪扩散隐含模型(DDIM)方法将训练和推理中的去噪迭代次数分离开来,从而允许算法使用较少的推理迭代次数来加快推理过程。在我们的实际实验中,使用 100 次训练迭代和 10 次推理迭代的 DDIM,可以在 Nvidia 3080 GPU 上实现 0.1 秒的推理延迟。

Intriguing Properties of Diffusion Policy

Model Multi-Modal Action Distributions

扩散策略的多模态行为产生有两个来源——潜在的随机抽样过程和随机初始化。在随机朗之万动力学中,在每个采样过程开始时从标准高斯中提取初始样本 A t K A^K_t AtK,这有助于为最终动作预测 A t 0 A^0_t At0指定不同可能的收敛盆地。然后,该动作进一步随机优化,在大量迭代中添加高斯扰动,这使得单个动作样本能够收敛并在不同的多模态动作盆地之间移动。图3显示了平面推送任务(Push T)中扩散策略的多模态行为示例,没有对测试场景进行明确演示。

fig3

Synergy with Position Control

我们发现具有位置控制动作空间的扩散策略始终优于具有速度控制的扩散策略,如图4所示。这一令人惊讶的结果与最近大多数依赖于速度控制的行为克隆工作形成了鲜明对比。
fig4
我们推测这种差异有两个主要原因:首先,动作多模态在位置控制模式下比在使用速度控制模式下更为明显。由于扩散策略比现有方法更好地表达了行动多模态,我们推测它本质上比现有方法受这一缺陷的影响更小。此外,位置控制比速度控制受复合误差效应的影响更小,因此更适合于动作序列预测(如下节所述)。因此,扩散策略既不受位置控制的主要缺点的影响,又能更好地利用位置控制的优点。

Benefits of Action-Sequence Prediction

由于难以从高维输出空间中有效采样,大多数策略学习方法往往避免了序列预测。例如,IBC在对具有非平滑能量landscape的高维动作空间进行有效采样时会遇到困难。类似地,BCRNNand和BET也难以指定动作分布中存在的模式数(需要gmm或k-means步长)。相反,DDPM可以很好地扩展输出维度,而不会牺牲模型的表达性,这在许多图像生成应用程序中得到了证明。利用这种能力,扩散策略以高维动作序列的形式表示动作,它自然地解决了以下问题:

  • 时间动作一致性:以图3为例。为了将T块从底部推入目标,策略可以从左侧或右侧绕过T块。然而,假设序列中的每个动作都被预测为独立的多模态分布(如在BCRNNand BET中所做的那样)。在这种情况下,连续的动作可以从不同的模式中绘制出来,导致在两个有效轨迹之间交替的抖动动作。
  • 对空闲动作的鲁棒性:当演示暂停时,会发生空闲动作,并导致一系列相同的位置动作或接近零速度的动作。它在远程操作中很常见,像液体倾倒这样的任务有时就需要。然而,单步策略很容易过度适应这种暂停行为。例如,BC-RNN和IBC经常在现实世界的实验中陷入困境,因为没有明确地从训练中移除空闲动作。

Training Stability

IBC在理论上应该具有与扩散策略相似的优势。然而,由于IBC固有的训练不稳定性,在实践中从IBC获得可靠和更高性能的结果是具有挑战性的。图6显示了整个训练过程中的训练误差峰值和不稳定的评估性能,使得超参数tuning变得关键,checkpoint选择变得困难。因此,Florence等人(2021)评估了每个checkpoint,并报告了表现最佳的检查点的结果。在实际环境中,此工作流需要对硬件上的许多策略进行评估,以选择最终策略。在这里,我们讨论为什么扩散策略在训练中显得更加稳定。

fig6
隐式策略使用基于能量的模型(EBM)表示动作分布:
eq6
其中 Z ( o , θ ) Z(o, θ) Z(o,θ)是一个难以处理的标准化常数(关于a)。
为了训练EBM的隐式策略,使用了infoNCE风格的损失函数,它相当于Eq 6的负对数似然:
eq7
其中,使用一组负样本 { a ~ j } j = 1 N n e g \{\tilde{a}^j\}^{N_{neg}}_{j=1} {a~j}j=1Nneg来估计难以处理的归一化常数 Z ( o , θ ) Z(o, θ) Z(o,θ)。在实践中,已知负采样的不准确性会导致EBMs的训练不稳定。
通过对Eq 6中相同动作分布的得分函数进行建模,扩散策略和DDPM完全回避了 Z ( a , θ ) Z(a,θ) Z(aθ)的估计问题:
eq8
其中,噪声预测网络 ε θ ( a , o ) ε_θ (a,o) εθ(a,o)近似于分数函数 ∇ a l o g p ( a ∣ o ) ∇_a log p(a|o) alogp(ao)的负值,与归一化常数Z(o,θ)无关。因此,扩散策略的推理(Eq 4)和训练(Eq 5)过程都不涉及评估 Z ( o , θ ) Z(o,θ) Z(oθ),从而使扩散策略的训练更加稳定。

Connections to Control Theory

当任务非常简单时,扩散策略具有简单的限制行为;这可能会让我们从控制理论中得到一些严格的理解。考虑这样一个情况,我们有一个线性动力系统,以标准状态空间形式,我们希望控制:
eq
现在假设我们从线性反馈策略: a t = − K s t a_t =−Ks_t at=Kst获得示例(rollout)。该策略可以通过求解线性二次型调节器等线性最优控制问题来获得。模仿此策略不需要扩散的建模能力,但作为完整性检查,我们可以看到扩散策略做了正确的事情。
特别地,当预测视界为一个时间步长,Tp = 1时,可以看出,最优去噪量是最小的
eq9
eq

其中 σ k σ_k σk为去噪迭代k的方差,并且在推理时,DDIM采样将收敛到 a = − k a = - k a=k处的全局最小值。

轨迹预测 ( T p > 1 ) (T_p > 1) (Tp>1)自然随之而来。为了预测 a t + t ′ a_{t+t'} at+t(作为 s t s_t st的函数),最佳去噪器将产生 a t + t ′ = − K ( a − B K ) t ′ s t a_{t+t'} = - K(a - BK)^{t'} s_t at+t=K(aBK)tst;所有涉及到 w t w_t wt的项期望都是零。这表明,为了完美地克隆依赖于状态的行为,学习者必须隐式地学习与任务相关的动态模型。请注意,如果the plant 或者 the policy是非线性的,那么预测未来的行动可能会变得更具挑战性,并且再次涉及多模态预测。

Evaluation

我们从4个基准中系统地评估了15个任务的扩散策略,该评估套件包括模拟和真实环境,单个和多个任务基准,完全驱动和欠驱动系统,以及刚性和流体对象。我们发现,在所有测试的基准测试中,扩散策略始终优于先前的最先进技术,平均成功率提高了46.9%。

tab3
tab2
tab4

Key Findings

扩散策略可以表达短期多模态。我们将短期行动多模态定义为实现同一直接目标的多种方式,这在人类演示数据中很普遍。在图3中,我们展示了Push-T任务中这种类型的短视界多模态的案例研究。扩散策略学习从左或向右接近接触点的可能性相等,而LSTM-GMM和IBC表现出偏向一侧的倾向,BET不能倾向于一种模式。
扩散策略可以表达长视界的多模态。长视界多模态是不同子目标以不一致的顺序完成。例如,在block Push任务中推送特定块的顺序或在Kitchen任务区域中与7个可能对象交互的顺序是任意的。我们发现扩散策略很好地应对了这种多模态;在这两项任务上,它都大大超出了基准:Block Push的p2指标提高了32%,Kitchen的p4指标提高了213%。
扩散策略可以更好地利用位置控制。我们的消融研究(图4)表明,选择位置控制作为扩散策略作用空间明显优于速度控制。然而,我们评估的基线方法在速度控制下效果最好(这反映在大多数现有工作报告使用速度控制动作空间的文献中)
行动视界的权衡。操作视界大于1有助于策略预测一致的操作并补偿演示的空闲部分,但是视界过长会由于反应时间过慢而降低性能。我们的实验证实了这种权衡(图5左),并发现对于我们测试的大多数任务来说,8个步骤的行动范围是最佳的。
fig5
抗延迟的健壮性。扩散策略采用向后视界位置控制来预测未来的一系列行动。这种设计有助于解决由图像处理、策略推理和网络延迟引起的延迟差距。通过模拟延迟实验,扩散策略能够在延迟长达4步的情况下保持峰值性能(图5)。我们还发现,速度控制比位置控制更受延迟的影响,这可能是由于复合误差效应。
扩散策略对训练是稳定的。我们发现扩散策略的最优超参数在不同的任务中是一致的。相比之下,IBC 容易出现训练不稳定性。

Realworld Evaluation

我们在2种硬件设置上对4个任务的实际性能进行了评估——每种设置使用来自不同演示者的训练数据。在现实世界的Push-T任务中,我们对2种架构选项和3种视觉编码器选项执行了检查扩散策略的实验;我们还对具有位置控制和速度控制动作空间的2种基线方法进行了基准测试。在所有任务中,带有CNN主干和端到端训练视觉编码器的扩散策略变体都产生了最好的性能。
tab6
fig7
fig8/9
fig10

Realworld Bimanual Tasks

为了实现手动任务,大部分的努力都花在扩展我们的机器人堆栈上,以支持多臂远程操作和控制。扩散策略在没有超参数调优的情况下为这些任务开箱即用。
fig11/12/13

总结

在这项工作中,我们评估了基于扩散的机器人行为策略的可行性。通过对模拟和现实世界中的15个任务的综合评估,我们证明了基于扩散的视觉运动策略始终且明确地优于现有方法,同时也稳定且易于训练。我们的研究结果还强调了关键的设计因素,包括向后视界动作预测、末端执行器位置控制和有效的视觉调节,这对于释放基于扩散的政策的全部潜力至关重要。虽然许多因素影响行为克隆策略的最终质量——包括演示的质量和数量、机器人的物理能力、策略架构和所使用的预训练机制——但我们的实验结果强烈表明,策略结构在行为克隆过程中构成了一个显著的性能瓶颈。要考虑行为克隆过程的各个方面的重要性,而不仅仅是用于策略培训的数据。
局限和展望:

  • 在演示数据不足的情况下,实现效果并不理想(行为克隆的局限性)。扩散策略可应用于其他范式,如强化学习,以利用次优数据和负面数据。实际机器人应用中需要更大规模、更丰富多样的数据集,类似于ChatGPT的规模。
  • 扩散策略具有更高的计算成本和推理延迟(与 LSTM-GMM 等简单方法相比)。动作序列预测部分缓解了这一问题,但对于需要高速率控制的任务来说可能还不够。未来的工作可以利用扩散模型加速方法的最新进展来减少所需的推理步骤,如新的噪声调度、推理求解器和一致性模型等。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/871773
推荐阅读
相关标签
  

闽ICP备14008679号