赞
踩
2023年7月,我司组建大模型项目开发团队,从最开始的论文审稿,演变成目前的两大赋能方向
总之,经过过去近一年的努力,在今年创业的第十年,我司从教育为主,变成了「科技为主 教育为辅」,主做大模型应用、机器人(具身智能)、解决方案
而对于其中的机器人,无论是我、我合伙人孙老师、Y博士(我司机器人方向的合伙人),还是整个机器人开发团队,对具身智能的发展都充满无比的信心,誓要全力加速赋能各个典型的工业场景,毕竟科技就是最直接的生产力
本文中的DexCap一开始是在此文《模仿学习的集中爆发:从Dobb·E、Gello到斯坦福Mobile ALOHA、UMI、DexCap、伯克利FMB》中的,考虑到
故把DexCap独立出来成本文
首先,对于数据的收集上,通过上面介绍的斯坦福mobile aloha/UMI可知,模仿学习最近在机器人领域取得了相当大的进展,特别是通过使用人类示范数据进行监督训练
进一步,为了将手部运动捕捉系统扩展到机器人学习的日常任务和环境中进行数据收集,一个合适的系统应该具备便携性和长时间捕捉的鲁棒性,能够提供准确的手指和腕关节姿态,以及三维环境信息,可问题是
除了硬件挑战外,还存在算法挑战,用于机器人模仿学习的动作捕捉数据。 尽管灵巧的机器人手使得直接从人类手部数据中学习成为可能,但机器人手和人类手之间的尺寸、比例和运动结构的固有差异需要创新算法
为了分别解决硬件层面、算法层面的挑战,24年3月,李飞飞团队(Chen Wang、Haochen Shi、Weizhuo Wang、Ruohan Zhang、Li Fei-Fei、C. Karen Liu)分别开发了一种新的便携式手部动作捕捉系统DEXCAP,和一种模仿算法DEXIL(DEXIL允许机器人直接从人类手部动作捕捉数据中学习灵巧操纵策略)
对于系统,DEXCAP作为便携式手部动作捕捉系统,可以实时跟踪手腕和手指运动的6自由度姿态(60Hz),该系统包括
对于算法,为了利用DEXCAP收集的数据来学习灵巧机器人策略,作者团队提出了基于动作捕捉数据的模仿学习方法DEXIL,它包括两个主要步骤——数据重定位和基于点云输入的生成式行为克隆策略训练(data retargeting and training generative-based behavior cloning policy with point cloud inputs),还可以选择性地进行人机交互式运动校正
总之,不同于以下这些
DEXCAP专注于灵巧模仿学习,依赖于 DEXCAP 来收集基于三维点云观测的高质量手部动作捕捉数据,这些数据可以直接用于训练单手或双手机器人的低级位置控制
DexCap为了捕捉适合训练灵巧机器人策略的细粒度手部动作数据,DexCap的设计考虑了四个关键目标:
经过实验得知,使用电磁场手套,相比于基于视觉的手指追踪系统,在手物交互中对视觉遮挡的鲁棒性方面具有显著优势(论文中对电磁场手套系统和最先进的基于视觉的手部追踪方法在不同操纵场景下进行了定性比较)
在我们的系统中,手指运动使用Rokoko动作捕捉手套进行跟踪,如下图所示
除了手指运动外,了解机器人末端执行器在三维空间中的精确位置对于机器人操控至关重要。这需要DEXCAP用于估计和记录人手在数据收集过程中的6自由度姿态轨迹。 虽然基于相机和基于IMU的方法通常被使用,但每种方法都有其局限性
为了解决这些挑战,故开发了一种基于SLAM算法的6自由度手腕跟踪系统,如上图(c)所示
该系统逐一通过
以实现对手腕6自由度姿态的一致跟踪
捕捉训练机器人策略所需的数据不仅需要跟踪手部运动,还需要记录3D环境的观察作为策略输入
为此,DexCap团队设计了一个装载摄像机的背包「如上图(a)、(b)所示,为方便大家对照,特把上图再贴一下,如下」
接下来的关键问题是如何有效地将跟踪的手部运动数据与3D观察结果进行整合
当然,DexCap的硬件设计模块化且成本低廉,不限制相机、动作捕捉手套和迷你PC的品牌或型号,总成本控制在4000美元的预算范围内(不包括机械臂)
为了验证通过数据训练的机器人策略是否OK,接下来建立一个双手灵巧的机器人系统
该系统由两个Franka Emika机器人臂组成,每个臂上配备有一个LEAP灵巧机器人手(一个有16个关节的四指手),如图(b)所示
为了进行策略评估,如上图图(b)所示,人类数据收集中使用的胸部LiDAR相机被从背心上取下,并安装在机器人臂之间的支架上(对于机器人系统,只使用LiDAR相机,不需要手腕相机。 机器人臂和LEAP手都以20Hz的控制频率运行,同时使用末端执行器位置控制和关节位置控制来控制两只机械臂和两只LEAP手,即use end-effector position control for both robot arms and joint position control for both LEAP hand)
接下来,使用DexCap记录的人手动作捕捉数据来训练灵巧机器人策略,然后,我们会遇到这几个问题
为了解决这些挑战,我们引入了DEXIL,这是一个使用人手动作捕捉数据训练灵巧机器人的三步框架
动作重定向
如上图(a)所示,由于人手和LEAP手的尺寸差异很大,而这种尺寸差异使得不好直接将手指运动转移到机器人硬件上,故需要先将人手动作捕捉数据重新定向到机器人实体上,这需要使用逆运动学(IK)将手指位置和6自由度手掌姿态进行映射
先前研究中的一个关键发现是,在与物体互动时,手指尖是手上最常接触的区域(如HO-3D [25]、GRAB [76]、ARCTIC [16]等研究所证明的)。 受此启发,我们通过使用逆运动学(IK)来匹配手指尖位置,重新定向手指运动
具体而言,我们使用一种能够实时生成平滑准确的手指尖运动的IK算法[63, 64, 79],以确定机器人手的16维关节位置。 这确保了机器人手指尖与人手指尖的对齐
通过转换后的机器人状态 、动作 和相应的三维点云观测 ,我们将机器人策略学习过程形式化为轨迹生成任务
学习灵巧机器人策略的一个挑战,特别是对于双手灵巧机器人,是处理大维度的动作输出
在每次机器人动作之后,我们计算机器人当前自我感知与目标姿态之间的距离。 如果它们之间的距离小于一个阈值,认为机器人已经达到了目标位置,并将查询策略获取下一个动作
为了防止机器人变得空闲,如果它在规定的步数内未能达到目标姿态,将重新查询策略获取后续动作,一般在实验中将步数设定为10
通过上述设计,DEXIL可以直接从DEXCAP数据中学习具有挑战性的灵巧操控技能(例如,拾取和放置以及双手协调),而无需使用机器人数据
然而,简单重定位的方法并未解决人机融合差距的所有方面。例如,使用剪刀时,稳定地握住剪刀需要将手指深入握柄。 由于机器手指与人手之间长度比例的差异,直接匹配指尖和关节运动并不能保证对剪刀施加相同的力
为了解决这个问题,我们提供了一种人在环路中的运动校正机制,包括两种模式-残差校正和远程操作。在策略执行过程中,我们允许人们通过佩戴DEXCAP实时向机器人提供校正动作(其中人类对策略生成的动作应用残差动作来纠正机器人行为。 纠正动作被存储在一个新的数据集中,并与原始数据集均匀采样,用于对机器人策略进行微调)
最终,我们使用三种数据类型(分别得到了201、129和82个演示):
数据最初以60Hz记录,然后降采样到20Hz以匹配机器人的控制速度,纠错数据直接以20Hz收集
最后,对于机器人的控制而言,采用Position control,以分层结构的方式进行:
// 待更
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。