赞
踩
7.3日,我司七月在线(集AI大模型职教、应用开发、机器人解决方案为一体的科技公司)的「大模型机器人(具身智能)线下营」群里的一学员发了《Open-TeleVision: Teleoperation with Immersive Active Visual Feedback》这篇论文的链接[其Submitted on 1 Jul 2024 (v1), last revised 8 Jul 2024 (this version, v2)]
我当时快速看了一遍,还是挺有价值的一个工作(与moblie aloha、humanplus最大的区别是,moblie aloha是通过主动臂遥控,humanplus则是用过影子系统遥控,而television则是远程遥控,之后机器人再自主操作),一直想做下解读来着
无奈过去一周一直在弄mamba2的解读,所以没来得及弄,但后来考虑到
故,本文来了,且在后来,除了Open-TeleVision,又增加了两个相关的工作:AnyTeleop、Bunny-VisionPro,比如这三个系统的作者团队便多有重叠
AnyTeleop | Yuzhe Qin | Wei Yang | Binghao Huang | Karl Van Wyk | Hao Su | Xiaolong Wang | Yu-Wei Chao | Dieter Fox |
Open-TeleVision | Xu xin Cheng | Jialong Li | Shiqi Yang | Ge Yang | Xiaolong Wang | |||
Bunny-VisionPro | Runyu Ding | Yuzhe Qin | Jiyue Zhu | Chengzhe Jia | Shiqi Yang | Ruihan Yang | Xiaojuan Qi | Xiaolong Wang |
24年5月,来自UC San Diego和NVIDIA的研究者们(Yuzhe Qin, Wei Yang, Binghao Huang, Karl Van Wyk、Hao Su, Xiaolong Wang, Yu-Wei Chao, Dieter Fox)提出了AnyTeleop——一种通用的基于视觉的灵巧机器人手臂-手远程操作系统,其
远程操作[39],作为获取人类示范以教导机器人的直接手段,一直是实现这一目标的强大范式[22, 11, 67, 17, 34, 6, 19, 5, 38, 53, 63]。 与基于夹爪的操作器相比],远程操作灵巧的手臂系统带来了前所未有的挑战,通常需要专门的设备,这些设备成本高且设置复杂,例如
幸运的是,最近在基于视觉的远程操作方面的发展[2, 24, 16, 26, 43——From one hand to multiple hands: Imitation learning for dexterous manipulation from single-camera teleoperation, 27, 21, 22, 3]提供了一种低成本且更具普适性的灵巧机器人系统远程操作替代方案
总之,早期的基于视觉的远程操作研究集中在提高手部跟踪性能 [57, 60, 1] 和将人手姿态映射到机器人手姿态 [24, 2, 5, 35] 上。最近的研究已经将远程操作的范围从单个机器人手扩展到完整的手臂-手系统 [16, 25, 67]
尽管取得了进展,当前基于视觉的远程操作系统在扩大机器人教学数据收集方面仍然存在不足
首先,先前的系统通常是针对特定的机器人模型或部署环境设计和工程化的。 例如
随着机器人模型池的扩大和操作环境多样性的增加,这些系统的扩展性将很差
其次,每个系统都是创建并与一个特定的“现实”相结合,要么仅在现实世界中,要么与特定选择的模拟器一起。 例如,HAPTIX [23] 运动捕捉系统仅为 MuJoCo 环境中的远程操作而开发 [58]
为了促进大规模数据收集和弥合仿真与现实之间的差距,需要远程操作系统在虚拟环境(具有任意选择的模拟器)和现实世界中运行
最后,现有的远程操作系统通常针对单一操作员和单一机器人设置进行了定制。 为了教会机器人如何与其他机器人代理以及人类代理合作,远程操作系统应设计为支持多个飞行员-机器人伙伴关系,其中机器人可以在共享环境中相互物理交互
在本文中,旨在通过填补上述空白,为基于视觉的灵巧远程操作的数据收集奠定基础。 为此,提出AnyTeleop,一个统一和通用的远程操作系统,可以用于:
为了实现这一目标
虽然系统非常通用,可以支持多种设置,但在实验中AnyTeleop仍能取得优异的性能。 对于现实世界的远程操作,AnyTeleop可以在8个任务中的10个任务上以更高的成功率超过之前为特定机器人硬件设计的系统[54]
远程操作系统的架构如下图所示
远程操作服务器接收来自驱动程序的摄像头流,检测手部姿态,然后将其转换为关节控制命令。 客户端通过网络通信接收这些命令,并使用它们来控制模拟或真实的机器人
具体而言,利用来自一个或多个摄像头的RGB或RGB-D数据,为机器人手臂和灵巧手生成平滑且无碰撞的控制命令。 它由四个模块组成:
手部姿态检测模块提供了一个独特的功能,可以利用各种摄像头配置的输入,包括RGB或RGB-D摄像头,以及单个或多个摄像头(设计原则是利用更多的信息,例如深度和附加摄像头,在可用时提高性能。 但它也可以在最少输入的情况下执行任务,即单个RGB摄像头)
如下图所示,该图展示了手部检测结果,白色边框突出显示了预测区域,红点标记了识别出的手指关键点
- 手部骨架由连接关键点的灰色线条表示。 此外,小灰点描绘了来自SMPL-X手部模型的3D顶点的2D投影
- 该图展示了五种不同的情况,从左到右分别是:(i) 手部张开手指以启动远程操作,(ii) 手指向下准备进行自上而下的抓取,(iii) 使用拇指和食指进行精确抓取,(iv) 使用五指进行强力抓取,以及 (v)手部相对于相机平面垂直放置的失败场景
检测模块有两个输出:
检测融合模块集成了多个摄像头的检测结果
在进行手部姿态检测时,自遮挡可能是一个问题,特别是当手垂直于摄像机平面时。 使用多个摄像头可以通过提供额外的视角来缓解这个问题。
然而,在融合多个检测结果时有两个主要挑战:
手部姿态重定向模块将从感知算法获得的人手姿态数据映射到远程操作机器人手的关节位置。 这个过程通常被表述为一个优化问题 [42, 16],其中最小化人手和机器人手的关键点向量之间的差异
优化可以定义如下
其中,表示机器人手在时间步 的关节位置,此外
为了提高时间平滑性,包含了一个权重为的额外惩罚项。 当重定向到不同的形态时,例如本文开头第一个图中的Dclaw,需要手动指定机器人和人类手指之间的关键点向量映射。 值得注意的是,该模块仅考虑机器人手
给定检测到的手腕和手的姿态,接下来的目标是生成平滑且无碰撞的机器人手臂运动,以到达目标笛卡尔末端执行器姿态。 实时运动生成方法是实现平滑远程操作体验所必需的
在[16,即Dexpilot: Vision-based teleoperation of dexterous robotic hand-arm system]的先前工作中,机器人运动由黎曼运动策略驱动(RMPs) [49, 7] 可以实时计算加速度场
然而,朝向特定末端执行器姿态的加速度并不能保证自然的轨迹。 在这项工作中,他们采用了CuRobo [56],一个由GPU加速的高度并行化无碰撞机器人运动生成库,以实时生成自然和反应迅速的机器人运动
在AnyTeleop中,运动生成模块以低频率(25 Hz)从手部检测和重定向模块接收末端执行器的笛卡尔姿态,并以更高的频率(120 Hz)在关节限制内生成无碰撞的关节空间轨迹。生成的轨迹可以由阻抗控制器在模拟或真实机器人上安全执行
本系统类似之前的mobile aloha,也是从人类示范中进行模仿学习
具体而言,首先收集几个灵巧操作任务的示范数据,然后使用这些数据来训练模仿学习算法
为了更好的评估、比较,他们选择了最近的一项基于视觉的远程操作工作[43,From one hand to multiple hands: Imitation learning for dexterous manipulation from single-camera teleoperation],该工作可以用于模拟机器人,作为我们的基线
值得注意的是,通过每个系统收集的演示数据来比较两个远程操作系统。 因此,通过在不同的演示数据上训练相同的学习算法来与基线进行比较,这些数据是通过基线系统和我们的远程操作系统收集的
且遵循[43]选择Demo Augmented Policy Gradient (DAPG) [46]作为模仿算法,另还将其与[44,即Dexpoint: Generalizable point cloud reinforcement learning for sim-to-real dexterous manipulation]中的一种纯强化学习RL算法进行比较,该算法不使用演示,且提供与之前工作[43]相同的密集奖励用于RL训练
在操作任务上,直接使用基准工作[43]中提出的操作任务进行比较,包括三个任务:
这些任务在下图的左图中可视化
所有三个任务中的操作对象都是随机初始化的,重新定位中的目标位置也是随机的。 每个操作任务都有两个变体:浮动手(Floating-Hand)变体和手臂-手(Arm-Hand)变体
浮动手是没有机器人手臂的灵巧手,可以在空间中自由移动,而手臂-手意味着手安装在具有固定基座的机器人手臂上,这是一个更现实的设置
在演示细节上,对于基线远程操作系统 [43],直接使用原作者收集的演示,每个任务有 50 条演示轨迹
在评估结果上,对于每种方法在每个任务上,使用三个不同的随机种子训练策略。 对于每个策略,我们在100次试验中对其进行评估。 关于成功指标的更多详细信息可以在[43]中找到
如上图所示,AnyTeleop收集的演示训练的模仿学习算法在大多数任务上可以超越基线和RL,只有一个例外。 与通过基线系统收集的演示相比,我们的系统有两个有助于模仿学习更好表现的优点:
协作操作是人机系统发展的关键技术 [59]。 收集协作操作任务的演示数据一直是一项具有挑战性的任务,因为它需要多个操作员无缝合作
通过模块化和可扩展系统设计以及基于网络的可视化,本系统即使在操作员不在同一物理位置的情况下,也能方便地收集协作任务的数据
在本节中,展示了该远程操作系统如何扩展到协作环境中,多个操作员协调合作以执行操作任务。选择人机交接作为示例,如下图所示
在这种设置中,操作员#1控制机器人手,操作员#2控制人手
更进一步,下图展示了多操作员协作的系统架构
包括两个组件
// 待更
基于模仿学习的机器人在本博客的前几篇机器人文章中已经介绍过很多了,其中有个关键点便是数据的收集
而数据收集的其中一种重要的方式便是远程操作,它不仅提供了准确和精确的操作演示,还提供了自然和流畅的轨迹,使学习到的策略能够推广到新的环境配置和任务中
而各种远程操作方法包括且不限于
大多数远程操作系统中有两个主要组件:执行和感知
提前说一嘴,总之,在TeleVision之前,没有系统同时提供远程控制和深度感知:操作员被迫在直接观看(需要物理存在)和RGB流(放弃深度信息)之间做出选择
而TeleVision通过利用立体流媒体,其首次在单一设置中提供了这两种功能
为了解决上述一系列问题,来自加州大学圣地亚哥分校、麻省理工学院的研究者们(Xuxin Cheng, Jialong Li, Shiqi Yang, Ge Yang, Xiaolong Wang,又是个华人团队)于24年7月初提出了本TeleVision
如下图所示,便是TeleVision的远程操作数据收集和学习设置
而TeleVision对允许细粒度操作的主要贡献来自感知,它结合了具有主动视觉反馈的VR系统
即在机器人头部使用单个主动立体RGB相机,配备2或3个自由度的驱动,模仿人类头部运动以观察大工作空间。 在远程操作过程中,摄像头会随着操作员的头部移动而移动,进行流媒体传输,即如下图所示
这是因为实时、自我中心的3D观察传输到VR设备,使得人类操作员看到的是机器人看到的。 这种第一人称主动感知为远程操作和策略学习带来了好处
humanplus通过影子系统实现了人类操作员对机器人的实时控制,那TeleVision又是如何做到实时远程遥控的呢
事实上,TeleVision基于Vuer [19]开发了一个网络服务器
下图便显示了机器人如何跟随人类操作员的头部、手臂和手的动作
反过来,机器人以每只眼480x640的分辨率流式传输立体视频(整个循环以60 Hz的频率进行)
且过程中只考虑它们的主动感知颈部、两个7自由度的手臂和末端执行器,而其他自由度未被使用。其中,H1的每只手有6个自由度 [20],而GR-1有一个1自由度的下颚夹持器
此外,为了主动感知,设计了一个具有两个旋转自由度(偏航和俯仰)的云台,安装在H1躯干顶部,该云台由3D打印部件组装而成,并由DYNAMIXEL XL330-M288-T电机驱动 [21]
对于GR-1,使用了厂家提供的3自由度颈部(偏航、滚动和俯仰),且两个机器人都使用ZED Mini [22] 立体相机提供立体RGB流
对于手臂控制而言,人类手腕姿态首先转换为机器人的坐标系。 具体来说,机器人末端执行器与机器人头部之间的相对位置应与人类手腕和头部之间的相对位置相匹配,且机器人的手腕方向与人类手腕的绝对方向对齐,这些方向是在初始化Apple VisionPro手部追踪后端时估计的
这种对末端执行器位置和方向的差异化处理确保了当机器人的头部随人类头部移动时,机器人末端执行器的稳定性
过程中,TeleVision采用基于Pinocchio[23, 24, 25]的闭环逆运动学(CLIK)算法来计算机器人手臂的关节角度
输入的末端执行器姿态使用SE(3)群滤波器进行平滑处理,该滤波器由Pinocchio的 SE(3)插值实现,从而增强了IK算法的稳定性
为了进一步降低IK失败的风险,当手臂的可操作性接近其极限时,加入了关节角度偏移。 这种校正过程对末端执行器的跟踪性能影响最小,因为偏移量被投影到机器人手臂雅可比矩阵的零空间,从而在解决约束的同时保持跟踪精度
对于手部控制而言,通过dex-retargeting,一个高度通用且计算速度快的运动重定向库,人手关键点被转换为机器人关节角度命令 [Anyteleop]
TeleVision的方法在灵巧手和夹持器形态上都使用了向量优化器。 向量优化器将重定向问题表述为一个优化问题 [借鉴于Anyteleop, Dexpilot],而优化是基于用户选择的向量定义的:
在上述公式中
此外
TeleVision和Moblie Aloha一样,选择 ACT[10]作为的模仿学习算法
但进行了两项关键修改
用于训练ACT [10] 模型的超参数详见下图(虽然这些超参数在所有基线和所有任务中大多数是一致的,但也有一些例外,包括块大小和时间加权)
提前说一嘴,在所有任务中TeleVision使用60的块大小,除了罐插入任务中,TeleVision使用100的块大小。 在TeleVision的设置中使用60的块大小有效地为机器人提供了大约一秒的记忆,与推理和动作频率60Hz相对应
尽管如此,我们注意到在罐插入任务中,使用更大的块大小(对应于包含更多的历史动作)对模型执行正确的动作序列是有利的
此外,在原始ACT论文[即Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware,详见此文的2.1.1节动作分块:将同一时间步内的预测动作进行聚合]中采用指数加权方案为不同时间步的动作分配权重
其中,是最早动作的权重,遵循ACT的设置。是上图中提到的时间加权超参数。随着 的减少,更多的强调放在最近的动作上,使模型响应性更好但稳定性较差
经过实验发现,对于大多数任务,使用时间权重 m为0.01可以在响应性和稳定性之间达到令人满意的平衡。 然而,对于卸载和罐子分类任务,我们调整了这个参数以满足它们的特定需求
- 对于卸载任务, m设置为0.05,确保在手中传递时更大的稳定性
- 对于罐子分类任务, m设置为0.005,提供更快的动作
如下图a所示,此任务涉及将随机放置在桌子上的可乐罐(红色)和雪碧罐(绿色)分类
罐子一个接一个地放在桌子上,但位置和类型(可乐或雪碧)是随机的
每一集包括连续分类10个罐子(5个雪碧和5个可乐随机)
如下图c所示,此任务涉及从桌子上拾取软饮料罐,并将它们按预定顺序小心地插入容器内的槽中
虽然和上一个任务罐子分类都涉及饮料罐的操作,但此任务要求更精确和细致的动作,因为成功的插入需要高精度
此外,此任务采用了不同的抓取策略。 在之前的罐子分类任务中,机器人只需要将罐子扔到指定区域,因此形成了一种涉及手掌和所有五个手指的抓取策略,这是一种宽容但不精确的抓取策略
在这个任务中,为了将罐子插入仅比罐子稍大的槽中(苏打罐的直径大约为5.6厘米,槽的直径大约为7.6厘米),TeleVision采用了一种更类似于捏的策略,仅使用拇指和食指,从而在罐子的放置上进行更细微的调整
这两种不同的抓取策略表明,系统能够完成具有复杂手势要求的任务(该任务的每一集都包括将所有六个罐子放入正确的槽中)
如下图d所示,此任务涉及将毛巾折叠两次
任务的区别在于它展示了系统操作柔软和顺从材料(如毛巾)的能力。 该任务的动作序列如下展开:
该任务的每一集都包括一次完整的毛巾折叠
如下图e所示,此任务是一个复合操作,涉及管子的提取和手内传递
在此任务中,一个芯片管被随机放置在分类盒内的四个槽中的一个中。目标是识别包含管子的槽,用右手提取管子,传递给左手并将管子放置在预定位置
为了成功执行这个任务,机器人需要视觉推理来辨别管子的位置信息,并且需要准确的动作协调来提取和传递管子。 这个任务的每一集包括从4个随机槽中拾取4个管子,传递到另一只手,最后放在桌子上
作者团队对TeleVision系统的关键设计选择进行了一系列消融实验,并通过真实世界的实验展示了它们的有效性
且除罐子分类(包括 H1 罐子分类和GR-1 罐子分类)外,所有任务都使用20轮人类演示进行训练
相比之下,罐子分类仅使用10轮演示,且每轮演示又包括10个(GR-1罐分类为6个)单独的罐分类操作。 因此,10轮演示下来总计包含100个单独的分类操作,提供了充足的训练数据
作者团队在 H1 和 GR-1 机器人上进行分类罐头任务。 所有其他任务仅由H1机器人执行。从下表中显示的实验结果来看,可以看到到原始的ResNet骨干网络未能充分执行所有4项任务
对于can sorting而言,主要就两个步骤:先抓后放。首先,先看H1执行罐子分类(即can sorting)的效果(为方便大家接下来的理解,我July多说一句,下面,你会看到一系列分析、改进,之所以有这些分析、改进,其实都在于那个数字没到90%,^_^)
那当作者团队用上DinoV2算法后,H1和GR-1在pick之后的place这第二步上的表现如何呢(为何重点看place呢,因为DinoV2有深度信息,不至于像w/o Stereo Input pick不好,所以就重点看place的效果)
不出预料,H1的表现还好(H1的place成功率是88%),这能理解,毕竟H1在面对place这个任务时,用的算法越先进 最终place的效果越好(算法上,从w/o Stereo Input、ResNet18到DinoV2,效果上,从52%、58%到88%)
H1 Can Sorting之第二步place | |
DinoV2 | 88% |
ResNet18 | 58% |
w/o Stereo Input | 52% |
但为何GR-1的表现却如此之差呢(GR-1的place成功率才区区60%)?这就奇怪了,在算法变更强的前提下,DinoV2的效果竟没有随之而提高(DinoV2的成功率反倒还不如w/o Stereo Input的63%了)
GR-1 Can Sorting之第二步place | |
DinoV2 | 60% |
ResNet18 | 50% |
w/o Stereo Input | 63% |
H1远高于GR-1的主要原因在于,毕竟H1是灵巧手,而GR-1是夹爪,使得
正因为GR-1在抓住罐子准备分类到对应的收纳盒中时,罐子被夹持器遮挡严重,阻碍了GR-1的视线,从而使得无论用什么算法,都不好使,哪怕是最强的DinoV2
此外,无论是H1,还是GR-1,即便是用了最强的算法DinoV2,它们在place上的成功率均未超过90%(前者88%,后者60%)
后者60%因为有遮挡,现在理解了,但H1为何也未能超过90%呢
有一个原因在于ACT进行长时间推理的能力依赖于其块大小,而在作者团队的设置中,使用60的块大小和60 Hz的推理频率有效地为机器人提供了一秒钟的记忆:当机器人应该在没有直接视觉确认的情况下放下罐子时,它可能已经忘记了在拾取时看到的罐子的颜色
The other limitation is that ACT’s ability to make long-horizon inference is dependent on its chunk size. In our setup, using a chunk size of 60 with an inference frequency of 60 Hz effectively provides the robot with one second of memory: when the robot is supposed to drop the can without direct visual confirmation, it has likely forgotten the color of the
can which was visible at the time of pickup
而GR-1这“在place步骤上的仅仅60%的准确率”岂能忍?故接下来,得想办法彻底改进之
怎么改呢?算法上是没啥改进空间了,那非算法上呢..
功夫不负有心人,后来,如TeleVision论文附录B中所示,他们还另外做了一个实验,即为避免由于GR1的夹持器导致的视觉遮挡,故他们在GR1执行第二步place步骤时给罐子贴上了带着颜色的胶布
最终使得GR1无论用什么算法,都在放置place这个步骤上的的成功率得到显著提高(w/o Stereo Input从0.63提升到0.93,w. ResNet18从0.50提升到0.97,DinoV2的成功率直接从60%到100%),具体如下图右侧所示(从右到左看:←)
且他们又顺带看了下GR-1 罐子分类在抓取pick这个步骤上的表现(试问为何会有这个实验或分析呀,原因在于本2.2.1节开头说过的,现在place已经解决了到90%甚至超过90%的成功率了,但pick目前在各个算法之下的73% 83% 87%都还没到90%的成功率呢),发现
对于折叠衣服这个任务而言,我们来看机器人在不掉落毛巾的情况下连续执行两次折叠的能力,结果如下图左侧所示
DinoV2和w. ResNet18模型在执行折叠任务时均达到了100%的成功率,这种高成功率是折叠衣服这个任务具有高度的动作重复度
另一方面,w/o Stereo Input由于没有立体输入,所以偶尔在folding的第三阶段-move时失败(2/5次失败,即60%成功率),在这一阶段,机器人应该轻轻地将毛巾移到桌子的边缘,以便进行第二次折叠
可由于没有立体输入倾向于将手按得太重在桌子上,阻碍了毛巾的成功移动。 这种动作可能是由于使用单个RGB图像缺乏深度信息,因为这一步需要机器人根据与桌子的距离调整手部施加的力量
对于卸载这个任务而言,分别评估三个连续阶段的成功率:提取管子extract、手中传递pass和放置place
如上图右侧所示
下图比较了广角相机和我们的主动相机设置的视图
单个静态广角相机仍然难以捕捉所有的兴趣点(PoI)。 必须安装多个相机 [10, 12] 或为每个任务调整相机位置
静态广角相机还捕捉到无关的信息,这如下图所示,为训练和部署带来了额外的计算成本(对训练和部署步骤各抽取100个批次,并平均其计算时间。 基线名称中的数字表示批次大小。裁剪主动从 640x480下采样到308x224,导致每个摄像头有352个图像标记。广角镜头以相同的比例下采样至588x336,导致每个摄像头有1008个图像标记。 由于RTX 4090 GPU的内存限制,对广角镜头使用了10的批量大小)
TeleVision在相同批量大小下训练速度快 2倍,并且可以在4090 GPU上容纳 4倍的数据。在推理过程中,TeleVision也快 2倍,留出足够的时间进行IK和重定向计算,以达到 60Hz的部署控制频率
当使用广角图像作为输入时,推理速度较低,大约为 42帧每秒
此外,对于静态摄像头,操作员需要注视图像边缘的兴趣点,这会带来额外的不适和非直观性,因为人类使用中央(中央凹)视觉来聚焦 [34, 35]
接下来,再展示下TeleVision能够完成的更多远程操作任务
此外,系统还实现了下图所示的远程遥操作,即位于美国波士顿的操作员可以操作位
于美国圣地亚哥(大约3000英里外)的机器人
对于H1机器人的设置,与斯坦福的humanplus一致,也是使用的Inspire Robots的拟人手 [20]
其每只手有五根手指和12个自由度,其中6个是驱动自由度:拇指有两个驱动自由度,其余每根手指各有一个驱动自由度
下图是TeleVision的基于网络的跨平台界面,不仅可以从VR设备访问,还可以从笔记本电脑、平板电脑和手机访问
左:Apple Vision Pro。中:Meta Quest。右:Macbook、iPad和iPhone
在VR设备上,用户可以进入沉浸式会话,开始通过手部和手腕姿态流进行远程操作。 在其他设备上,手和手腕的流媒体传输不可用,但用户仍然可以看到传输的图像,并通过在设备屏幕上拖动来控制机器人的主动颈部
24年7.3日,还是来自香港大学和加州大学圣地亚哥分校的研究者们通过此篇论文《Bunny-VisionPro: Real-Time Bimanual Dexterous Teleoperation for Imitation Learning》提出了Bunny-VisionPro——利用VR头戴设备的实时双手灵巧远程操作系统 (其项目地址为:https://dingry.github.io/projects/bunny_visionpro.html)
值得一提的是,提出这个Bunny-VisionPro的团队Runyu Ding, Yuzhe Qin, Jiyue Zhu, Chengzhe Jia, Shiqi Yang, Ruihan Yang, Xiaojuan Qi, Xiaolong Wang和上文提出open-television的团队有重叠(标粗的代表也是上文open-television作者团队Xuxin Cheng, Jialong Li, Shiqi Yang, Ge Yang, Xiaolong Wang中的)
说句题外话,个人猜测他们大概率是彼此知道对方工作的,包括他们论文第一版提交到arxiv的日期只差短短两天(一个7.1,一个7.3)
总之,系统利用Vision Pro的跟踪功能捕捉操作员的手部动作,并将这些动作转换为精确的机器人指令,且Bunny-VisionPro具有三个创新模块:
Bunny-VisionPro 是一个模块化的远程操作系统,使用 VR 头显的手部和腕部跟踪功能来控制高自由度的双手机器人
如下图所示。 该系统由三个解耦组件组成:
操作员手上的质量(ERM)执行器。 这为操作员提供了实时触觉反馈,增强了他们的存在
感,并允许更精确的操作,且
补充一下关于双手远程操作的初始化
远程操作系统促进了人类动作到机器人动作的映射。 例如,将右手向前移动0.1米应导致机器人右末端执行器的等效移动。 为了确保将人类动作精确地转换为三维空间中的机器人动作
- 必须在初始化步骤中定义并同步人类操作员和机器人的坐标系
此阶段涉及为两个系统建立一个三维框架,分别称为初始人类框架和初始机器人框架- 然后,相对于初始人类框架测量人类操作员的动作,机器人在其自己的初始机器人框架内复制这些动作
双手远程操作需要仔细考虑操作员双手的相对位置,这对于需要复杂双手协调的任务至关重要。鉴于由于特定硬件配置,机器人的双手间距可能与人类不同,设计能够动态对齐机器人双手与操作员双手的可适应初始化模式至关重要。为了应对多样的操作需求,他们开发了几种对齐模式:
- 分别对齐: 每只手臂被视为一个独立的单元,适用于需要独立手臂动作的任务
- 对齐中心: 此模式计算两个机器人末端执行器之间的中点,并将其与人类操作员双手之间的中心点对齐
- 对齐左侧和对齐右侧: 这些模式专注于将机器人的运动与人类操作员的左手或右手对齐,这对于优先考虑一侧活动的任务非常有利
手部动作重定向模块将人类手指姿势转换为相应的机器人关节位置。 这是通过最小化人手和机器人手指尖关键点向量 [Dexmv: Imitation learning for dexterous manipulation from human videos] 之间的差异来实现的,公式化为一个在线优化问题(定义为公式1):
目标函数 由两部分组成:
该工作独特地解决了灵巧手中常见的环形关节的实时处理问题,其中关节数量超过了实际的自由度。对于具有个关节的机器人, 个被动关节的位置取决于其他 个主动关节,表示为(定义为公式2):
其中被动关节 的位置 不是独立的,而是受函数 约束。 是关节位置的总数,且没有在优化问题中添加等式约束(如之前的公式1所示),因为这会由于高度非线性的正向运动学函数导致不稳定性和计算时间增加
相反,可以将问题重新表述为一个降维问题,其中优化变量具有 k维度(活动关节)而不是 n(总关节)
具体来说,在优化的前向传递中,被动关节的位置按照公式2计算。在反向传递中,被动关节的梯度反向传播到活动关节,并添加到它们的原始梯度中。 因此,活动关节的梯度为(定义为公式3):
这种方法消除了需要使用SQP来处理约束的仿射近似,从而使问题更易处理
下表中的实验结果显示,使用这种方法解决Ability Robot Hand中的四杆联动结构(一种环路关节)时,速度提高了10.2倍
手臂运动控制涉及根据Vision Pro检测到的手腕姿态计算机器人手臂的关节轨迹。传统方法通常依赖于逆运动学(IK)的闭式解,并通过探索零空间来处理诸如奇异性等约束[49]
然而,对于典型的7自由度手臂,1自由度的零空间可能无法提供足够的灵活性。 现代方法将问题表述为一个优化任务[50],类似于重定向。 它放宽了IK的刚性约束,以适应额外的因素
受这些工作的启发,我们开发了一个统一且高效的优化目标,在下述公式中集成了IK、碰撞避免和奇异性管理,以实现实时运动控
其中的第一项涉及IK目标
这里,和分别代表机器人末端执行器和人类手腕的位置,而和是它们对应的四元数,表示内积,至于权重和允许在位置和旋转之间平衡误差
此外,奇异性和碰撞避免的目标如下(即the objectives for singularity and collision avoidance,定义为公式6)
其实,整合视觉和触觉反馈可以使得人类的一系列操作更有效。 然而,现实中的许多基于视觉的远程操作系统[比如Anyteleop, Dexpilot, Holo-dex, Grasplook, Robotic telekinesis]往往都忽略了触觉反馈
为了解决这一限制,他们开发了一种使用偏心旋转质量(ERM)执行器的低成本触觉反馈系统,如下图所示
该系统首先处理来自机器人手的触觉信号(步骤I),然后驱动振动电机模拟触觉感受(步骤II)。尽管成本低廉,该系统使操作员能够更直观地感知和响应环境,提供更沉浸的体验,从而提高操作性能
为了从模仿学习的角度评估AnyTeleop+和该系统收集的演示质量,他们训练了几种流行的方法:ACT [5]、扩散策略 [34] 和 3D扩散策略——DP3 [40],并测试了它们在未见过的场景中的泛化性能
此外,我们还研究了触觉数据在模仿学习中的有效性。 尽管已被证明有效,但触觉反馈系统并未用于演示收集,因为它是在数据收集完成后设计的
如下表所示,Bunny-VisionPro在三个任务中使用三种不同策略的平均成功率比AnyTeleop+高出22%。 这展示了该系统收集的演示数据的卓越质量
且该系统在双手任务中效果尤为显著,即清洁平底锅和揭盖和倒液。 这种改进的一个可能原因是Bunny-VisionPro能够精细地处理双手机器人的对齐,从而收集到更自然的机器人动作演示
在触觉数据处理上,FSR传感器会在机器人抓取物体时捕捉压力
这些信号也可以通过对时间上的力进行微分来计算冲量。 对于触觉学习,触觉信号表示为向量,使用MLP编码,或可视化为点集以进行视觉嵌入学习,类似于DexPoint [55]
如下表所示(触觉作为DP3策略输入的消融实验。报告了两个双手任务的成功率),利用触觉数据不一定能增强结果,可能是因为仅靠视觉就足以完成这些任务。 触觉反馈仅在手与物体接触时激活,因此无法帮助识别或定位物体
此外,使用力数据的性能略逊于冲量数据,可能是由于触觉读数随时间的零点漂移所致。 这种漂移可能是由传感器嵌入中使用的粘性材料变形引起的,在任务期间会持续改变力读数,导致性能不稳定。 相比之下,冲量对这种变化更具鲁棒性
Telekinesis基准测试 [Robotic telekinesis: Learning a robotic hand imitator by watching humans on youtube],包括十个单臂手操作任务,如下表所示
为了进一步评估系统在双手灵巧操作方面的能力,设计了三个短期任务——抓玩具、清洁锅和揭盖倒水
以及三个长期任务——擦玻璃、扫地和准备咖啡
以上六个任务,除了抓玩具之外,这些任务都需要两只手之间的精细协调
双手灵巧系统由两个UFactory xArm-7机器人手臂组成,每个手臂配备一个6自由度的Ability手,形成一个24自由度的系统。 每只手包含30个分布在五个指尖的触觉传感器
为了演示收集,两台RealSense L515相机分别放置在机器人工作区的前方和顶部,以捕捉足够的视觉观察
最终,在Telekinesis基准上评估该系统,并与Telekinesis[3]和AnyTeleop[4]进行比较,使用原始论文中报告的结果进行对比。 对于Bunny-VisionPro的自定义任务,为了确保公平比较,将AnyTeleop与基于Vision-Pro的手部跟踪集成,创建了AnyTeleop+,并使用与与Bunny-VisionPro相同的真实机器人设置
如下表所示
Bunny-VisionPro在10个任务中有9个任务匹配或超过了基线方法,证明了其系统在手部操作远程操作中的精度和鲁棒性。 然而,在剪刀拾取任务中,由于Ability手的自由度有限,使得将手指插入剪刀手柄变得具有挑战性,因此Bunny-VisionPro的系统表现略逊一筹
在自设计的操作任务中,如下表所示
Bunny-VisionPro优于 AnyTeleop+ [4],成功率高出 11%,任务完成时间缩短 45%。 这一表现证实了其在复制人类动作方面的精确性以及其响应速度和效率,此外
邀请了五位未经训练的操作员进行触觉反馈的用户研究,涉及两个任务:玩具传递、球移动
每位操作员每个任务进行五次试验,测量任务成功率和平均完成时间。如下图所示,触觉反馈在10次比较中有9次保持或提高了成功率
这种提升归因于机器人和物体之间增强的交互意识,这防止了由于过度压力导致的机器人手臂异常电流生成,从而促进了更安全的操作
此外,触觉反馈允许更快地完成\球移动\任务,该任务由于球的低变形性需要精确控制。 操作员报告说,当视线部分受阻时,触觉反馈加快了物体定位,并增强了他们对远程操作的信心
继斯坦福这4个开源机器人:moblie aloha、umi、dexcap、humanplus之后「这4个开源机器人都在本博客内仔细解读过,详见该系列:大模型机器人系列(具身智能/人形机器人)」,迎来了加州大学这个television
解读完之后,感慨:1 总算有个斯坦福之外的了,2 实际落地还是得做不少改进、改造工作
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。