HumanPlus用一个Transformer结构的策略网络作为低级运动控制器,称为Humanoid Shadowing Transformer。其输入为机器人当前的本体感受信息(关节角度、角速度等)和一个重定向后的人体目标姿态,输出为机器人关节的目标角度。
读者需要搭建一个与真实机器人参数相近的物理模拟环境(如MuJoCo、Bullet等),然后按照以上设置实现PPO算法来训练Humanoid Shadowing Transformer。本文的训练细节如下:
将训练好的Humanoid Shadowing Transformer部署到真实机器人上,就可以实现运动模仿功能了。具体步骤如下:
利用运动模仿采集的视觉数据,HumanPlus用监督学习训练高层视觉操作策略,称为Humanoid Imitation Transformer (HIT)。HIT也是一个Transformer网络,它的输入包括:
读者可以根据自己的需求,设计合适的任务流程,采集相应的视觉演示数据,用于训练HIT策略。在测试时,只需将机器人状态和RGB图像输入给HIT,然后将其输出的关节角度作为Humanoid Shadowing Transformer的输入即可。
在本文中,我们提出了一个全栈式系统,使人形机器人能够从人类数据中学习运动和自主技能。为了解决人形机器人控制的复杂性,我们遵循最近在腿式机器人领域使用大规模模拟强化学习和从模拟到真实迁移的成功范例[41,51]来训练一个用于全身控制的低级别策略。通常,基于学习的低级别策略被设计为特定任务,由于耗时的奖励工程[19,68],使人形机器人硬件一次只能展示一项技能,如行走。这种限制约束了人形机器人平台能够执行的多样化任务范围。同时,我们有一个40小时的人体运动数据集AMASS[49],涵盖了广泛的技能。我们利用这个数据集,首先将人体姿态重定向到人形机器人姿态,然后训练一个以重定向的人形机器人姿态为条件的任务无关的低级别策略,称为人形机器人影子变换器(Humanoid Shadowing Transformer)。我们的以姿态为条件的低级别策略可以零样本迁移到真实世界。
我们的人形机器人具有33个自由度,包括两个6自由度的手、两个1自由度的手腕和一个19自由度的身体(两个4自由度的手臂、两个5自由度的腿和一个1自由度的腰部),如图2左侧所示。该系统基于Unitree H1机器人构建。每只手臂都集成了Inspire-Robots RH56DFX手,通过定制的手腕连接。每个手腕有一个Dynamixel伺服电机和两个推力轴承。手和手腕都通过串行通信控制。我们的机器人在头部安装有两个RGB网络摄像头(Razer Kiyo Pro),向下倾斜50度,瞳距为160mm。手指可以施加高达10N的力,而手臂可以举起重达7.5kg的物品。腿部电机在运行过程中可以产生高达360Nm的瞬时扭矩。我们机器人的其他技术规格如图2右侧所示。
离线人体数据。我们使用公开的基于光学标记的人体运动数据集AMASS[49]来训练我们的低级别人形机器人影子变换器(Humanoid Shadowing Transformer)。AMASS数据集汇总了几个人体运动数据集的数据,包含40小时的人体运动数据,涵盖了各种任务的11,000多个独特运动序列。为了确保运动数据的质量,我们应用了一个基于[48]中概述的方法的过滤过程。人体和手部运动使用SMPL-X[57]模型进行参数化,该模型包括22个身体和30个手部3自由度球面关节、3维全局平移变换和3维全局旋转变换。
实时身体姿态估计和重定向。为了估计真实世界中用于影子的人体运动,我们使用带有准确运动的基于世界的人体(WHAM)[81]通过单个RGB摄像头实时联合估计人体姿态和全局变换。WHAM使用SMPL-X进行人体姿态参数化。如图3所示,我们使用上述方法执行实时人体到人形机器人的身体重定向。身体姿态估计和重定向在NVIDIA RTX4090 GPU上以25fps的速度运行。
实时手部姿态估计和重定向。我们使用HaMeR[58],一种使用单个RGB摄像头的基于Transformer的手部姿态估计器,来进行实时手部姿态估计。HaMeR使用MANO[72]手部模型预测手部姿态、相机参数和形状参数。我们使用上述方法执行实时人体到人形机器人的手部重定向。我们的手部姿态估计和重定向在NVIDIA RTX4090 GPU上以10fps的速度运行。
我们在模拟中使用PPO[74]通过最大化折扣期望回报E[∑T−1t=0 γtrt]来训练我们的人形机器人影子变换器,其中rt是时间步t的奖励,T是最大情节长度,γ是折扣因子。奖励r是鼓励匹配目标姿态同时节省能量和避免脚部打滑的项的总和。我们在表1中列出了所有的奖励项。我们在表2中详细介绍了模拟环境和人形机器人物理参数的随机化。
在这项工作中,我们修改了动作块变换器(Action Chunking Transformer)[104],通过移除其编码器-解码器架构,开发了一个仅解码器的人形机器人模仿变换器(Humanoid Imitation Transformer, HIT)用于技能策略,如图4右侧所示。HIT处理来自两个自我中心RGB摄像头的当前图像特征、本体感受和固定位置嵌入作为输入。这些图像特征使用预训练的ResNet编码器进行编码。由于其仅解码器设计,HIT通过根据输入中的固定位置嵌入预测50个目标姿态块来运行,并且它可以在各自的输入位置预测对应于图像特征的令牌。我们在这些预测的图像特征上合并了L2特征损失,迫使Transformer在执行ground truth目标姿态序列后为未来状态预测相应的图像特征令牌。这种方法允许HIT有效地融合目标姿态预测和前向动力学预测。通过在图像特征上使用前向动力学预测,我们的方法通过在图像特征空间上进行正则化,防止基于视觉的技能策略忽略图像特征和过度拟合本体感受,从而提高了性能。在部署期间,HIT在机载以25Hz的频率运行,异步地将预测的目标位置发送给低级别的人形机器人影子变换器,同时丢弃预测的未来图像特征令牌。
对于影子任务,我们演示了五个任务:拳击、打开两门柜子存放锅、投掷、弹钢琴、打乒乓球和打字"Hello World",展示了在影子快速、多样化运动和操纵重物方面的机动性和稳定性。影子结果的定性视频可以在项目网站上找到:https://humanoid-ai.github.io。
我们记录了六名参与者的平均任务完成时间,每人三次试验和三轮未记录的练习。我们还记录了使用我们的低级别策略进行遥操作期间稳定站立的平均成功率。虽然ALOHA支持精确控制机器人关节角度,但其固定的硬件设置使其难以适应不同身高和体型的人,并且默认情况下不支持人形机器人的全身控制。Meta Quest由于每个人形机器人手臂加上手腕只有5个自由度,经常导致奇异点和笛卡尔空间中目标姿态与实际姿态之间的不匹配,导致完成时间最长且在手臂奇异点处站立不稳定。虽然动力学示教直观且完成时间短,但它需要多个操作员,有时在教学过程中手臂上的外力会导致人形机器人跌倒。相比之下,我们的系统具有最短的完成时间,最高的稳定站立成功率,并且是唯一可用于全身遥操作的方法,解决了重新排列较低物体任务。
8.2. 鲁棒性评估
如表4所示,我们通过将其与制造商默认控制器(H1 Default)进行比较来评估我们的低级别策略。机器人在操纵物体时必须保持平衡,因此我们通过向骨盆施加力并记录导致不稳定的最小力来评估鲁棒性。如图7所示,我们的策略可以承受明显更大的力,并且恢复时间更短。当机器人失去平衡时,制造商的默认控制器需要几个步骤和长达20秒才能稳定机器人,而我们的策略通常在一两个步骤内恢复,且在3秒以下。更多的恢复步骤会导致抖动行为并影响操纵性能。我们还表明,我们的策略支持默认控制器无法完成的更多全身技能,如下蹲、高跳、从坐在椅子上站起来。
