赞
踩
一年多前,OpenAI重塑了聊天机器人,彻底推动大模型技术的突飞猛进,一个月前,OpenAI又重塑了视频生成,当sora的热度还在持续时,没想到OpenAI在机器人领域也出手了,和Figure联合打造的人形机器人,边与人类自然流畅对话、边干活(给人类苹果、整理桌面)
如此,现在大模型机器人的发展有三条路线
本文则重点介绍第三条路线
在此之前,RT-1 做的事情只是把简单指令转化成机械臂动作序列,而 PaLM-E 的工作则是用大模型将复杂的指令分解成多个简单的指令,然后再去调用 RT-1 执行动作
RT-2 则是把以上环节端到端地集成到了一起,它能够用复杂文本指令直接操控机械臂,中间不再需要将其转化成简单指令,通过自然语言就可得到最终的 Action。比如,可以直接对它说往左边移 0.1 毫米,把夹子松开或者夹紧等
大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练,说白了,人类可以很随意地用自然语言给机器人下达指令,如:打开上面的抽屉,小心花瓶!
大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍,帮助机器人做行动规划
然后重点来了, 真实世界中的机器人在未经“培训”的情况下,就能直接执行这个任务。
新方法实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给他做个示范都不需要。
可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔充电线都能完成
机器人如何直接听懂人话?李飞飞团队将该系统命名为VoxPoser,如下图所示,它的原理非常简单(项目地址、论文地址、代码地址,发布于23年7月)
在具体实现中,作者将VoxPoser的思路转化为一个优化问题,即下面这样一个复杂的公式:
它考虑到了人类下达的指令可能范围很大,并且需要上下文理解,于是将指令拆解成很多子任务,比如开头第一个示例就由“抓住抽屉把手”和“拉开抽屉”组成
VoxPoser要实现的就是优化每一个子任务,获得一系列机器人轨迹,最终最小化总的工作量和工作时间
而在用LLM和VLM将语言指令映射为3D地图的过程中,系统考虑到语言可以传达丰富的语义空间,便利用“感兴趣的实体(entity of interest)”来引导机器人进行操作,也就是通过3D Value Map中标记的值来反应哪个物体是对它具有“吸引力”的,那些物体是具有“排斥性”。
还是以开头的例子举例,抽屉就是“吸引”的,花瓶是“排斥”的。
当然,这些值如何生成,就靠大语言模型的理解能力了。
而在最后的轨迹合成过程中,由于语言模型的输出在整个任务中保持不变,所以我们可以通过缓存其输出,并使用闭环视觉反馈重新评估生成的代码,从而在遇到干扰时快速进行重新规划
因此,VoxPoser有着很强的抗干扰能力,比如下图将废纸放进蓝色托盘
最后,作者还惊喜地发现,VoxPoser产生了4个“涌现能力”:
// 待更
近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接规划底层动作序列呢?
23年Google发布的一项颇有影响力的工作即Robotics Transformer 2(RT-2),已经展示了一种使vlm适应低级机器人控制的可能解决方案,然而其需要对广泛的视觉-语言数据进行联合微调,以充分展示其有效性。因此,机器人领域迫切需要一种低成本的替代解决方案,有效地启用具有vlm的机器人操作策略
对此,ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。使用简单、少量的微调就可以把 VLM 变成 Robotics VLM,从而适用于语言交互的机器人操作任务
OpenFlamingo 在机器人操作数据集 CALVIN 上进行了验证,实验结果表明,RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能。随着 RT-X 数据集开放,采用开源数据预训练 RoboFlamingo 并 finetune 到不同机器人平台,将有希望成为一个简单有效的机器人大模型 pipeline
这是此前的一些工作,主要有以下三大类
总之,尽管之前的模型在一定程度上弥合了机器人操作任务中视觉和语言之间的差距,但它们要么专注于低级技能策略(如SayCan和PaLM-E),要么训练一个庞大的整体模型(如RT-1),或者需要大量视觉语言数据和计算资源来确保学习操作策略时不会忽视视觉与语言之间重要的对齐关系
相比这些工作,RoboFlamingo是一个简单而直观的解决方案,可以轻松适应现有VLM(本文使用OpenFlamingo)并只需微调少量操作演示
RoboFlamingo is a simple andintuitive solution to easily adapt existing VLMs (OpenFlamingo (Alayrac et al., 2022; Awadallaet al., 2023) used in this paper), only requiring fine-tuning on a small number of manipulation demonstrations
具体而言,RoboFlamingo利用已有的基于图像 - 文本对的视觉语言基础模型,通过训练端到端的方式生成机器人每一步的 relative action
模型的主要模块包含了 vision encoder,feature fusion decoder 和 policy head 三个模块,以下是这三个模块分别要做的事
在训练过程中,RoboFlamingo 利用预训练的 ViT、LLM 和 Cross Attention 参数,并只微调 resampler、cross attention 和 policy head 的参数
模仿学习「Imitation learning (Pomerleau, 1988; Zhang et al., 2018; Liu et al., 2020; Jang et al., 2022) 」,允许智能体通过从指令标记的专家游戏数据中进行模仿来学习
视觉编码器由ViT和重采样器Resampler构成
形式上,Resampler的公式如下:
其中
- ,作为Resampler可学习参数的查询向量
- 表示隐藏维度大小
- ,表示键和值的线性变换矩阵
- 为视觉token特征维度
- 和是经过变换后的视觉输入V的键和值向量
重采样器输出的压缩视觉tokens进一步传递至特征融合解码器,该解码器旨在通过将“语言指令”与“编码的视觉特征”融合,以生成视觉-语言联合嵌入(The compressed visual tokens output from the resampler Xtv ∈ RK×d are further passed to the feature fusion decoder, which is designed to generate the vision-language joint embedding by fusing the language instruction with the encoded vision feature Xtv)
在RoboFlamingo中,我们利用OpenFlamingo的预训练解码器,并按照Awadalla等人的方式对解码器模块进行微调,具体来说,解码器有层,每一层都涉及一个transformer解码器层和一个交叉注意力层(each of which involves a transformer decoder layer and a cross-attention layer)
形式上,如果我们将表示为指令的第i -th个嵌入token(we denote xi ∈ Rd the i−th embedded token of the instruction),表示为指令长度,表示为指令的嵌入矩阵(X ∈ RM×d is the embedded matrix of the instruction)
那么嵌入的自然语言指令应该为,并且给定输入时,可以计算出第个解码器层的输出(then the embedded natural language instruction should be X = (x1, x2, · · · , xM) and output Xtl+1 of the l-th decoder layer given the input Xtl is computed by)
其中
通过视觉和语言token之间的深度互动,我们期望得到输出的机器人操作(With the deep interaction of the vision and language token, we expect the output Xt = Xt L = {x L t,1 , xL robot manipulation)
特征融合解码器的输出被训练为视觉观察和语言指令的表示(The output Xt L from the feature fusion decoder is trained as the representation of the vision observation and language instruction),这些表示将进一步翻译成低级控制信号(which will be further translated into low-level control signals)
为了实现这一目标,我们采用一个额外的策略头来预测动作,例如7自由度末端执行器姿态和夹持器状态(the 7 DoF end-effector pose and gripper status),且尝试了多种策略来模拟历史观测序列,并将其作为策略头进行使用
以LSTM版本为例,在视觉-语言联合嵌入序列(with the vision-language joint embedding sequence Xt L)上通过在token dimension上进行最大池操作得到聚合嵌入(aggregated embedding),并预测动作
其中表示处的隐藏状态,、是预测的末端执行器姿态和夹持器状态
最终,我们利用最大似然模仿学习目标来微调所提出的pre-trained backbone和policy head
具体来说,期望的相对姿态通过回归损失(可使用均方误差MSE损失)进行优化,而抓手状态使用分类损失(可使用二进制交叉熵BCE损失):
其中
- 、是时间步长时末端执行器姿态和抓取器状态的演示
- 对应于抓取器损失的权重(λgripper corresponds to the weight of gripper loss)
在训练过程中,我们遵循OpenFlamingo的微调范例,只训练重采样器Resampler的参数,每个解码器层的gated cross-attention module和policy head,而冻结所有其他参数(In the training procedure, we follow the fine-tuning paradigm of OpenFlamingo by only training the parameters of the resampler, the gated cross-attention module of each decoder layer, and the policy head while freezing all other parameters)
数据集:
CALVIN(Composing Actions from Language and Vision)是一个开源的模拟基准测试,用于学习基于语言的 long-horizon 操作任务
定量分析:
RoboFlamingo 在各设置和指标上的性能均为最佳,说明了其具有很强的模仿能力、视觉泛化能力以及语言泛化能力
消融实验:
实验考察了四种不同的策略头部:MLP w/o hist、MLP w hist、GPT 和 LSTM,其中
相较于基线方法,RoboFlamingo 不但完整执行了 5 个连续的子任务,且对于基线页执行成功的前两个子任务,RoboFlamingo 所用的步数也明显更少
以下是RoboFlamingo的一些重要参考文献
- Brohan, Anthony, et al. "Rt-1: Robotics transformer for real-world control at scale." arXiv preprint arXiv:2212.06817 (2022).
- Brohan, Anthony, et al. "Rt-2: Vision-language-action models transfer web knowledge to robotic control." arXiv preprint arXiv:2307.15818 (2023).
- Mees, Oier, Lukas Hermann, and Wolfram Burgard. "What matters in language conditioned robotic imitation learning over unstructured data." IEEE Robotics and Automation Letters 7.4 (2022): 11205-11212.
- Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." Advances in Neural Information Processing Systems 35 (2022): 23716-23736.
- Mees, Oier, et al. "Calvin: A benchmark for language-conditioned policy learning for long-horizon robot manipulation tasks." IEEE Robotics and Automation Letters 7.3 (2022): 7327-7334.
- Padalkar, Abhishek, et al. "Open x-embodiment: Robotic learning datasets and rt-x models." arXiv preprint arXiv:2310.08864 (2023).
- Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.
- Awadalla, Anas, et al. "Openflamingo: An open-source framework for training large autoregressive vision-language models." arXiv preprint arXiv:2308.01390 (2023).
- Driess, Danny, et al. "Palm-e: An embodied multimodal language model." arXiv preprint arXiv:2303.03378 (2023).
- Jiang, Yunfan, et al. "VIMA: General Robot Manipulation with Multimodal Prompts." NeurIPS 2022 Foundation Models for Decision Making Workshop. 2022.
- Mees, Oier, Jessica Borja-Diaz, and Wolfram Burgard. "Grounding language with visual affordances over unstructured data." 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.
- Tan, Mingxing, and Quoc Le. "Efficientnet: Rethinking model scaling for convolutional neural networks." International conference on machine learning. PMLR, 2019.
- Zhang, Tianhao, et al. "Deep imitation learning for complex manipulation tasks from virtual reality teleoperation." 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018.
最近,纽约大学、Meta 研发出的一款机器人学会了这个技能。你只需要对它说,「把桌子上的玉米片拿到床头柜上」,它就能自己找到玉米片,并规划出路线和相应的动作,顺利完成任务。此外,它还能帮你整理东西或扔垃圾
这个机器人名叫 OK-Robot,由来自纽约大学、Meta 的研究者共同构建。他们将视觉语言模型(用于物体检测)、导航和抓取的基础模块整合到一个开放知识型框架中,为机器人的高效拾放操作提供了解决方案
OK-Robot 定位中的「开放知识」指的是在大型公开数据集上训练的学习模型
为了研究 OK-Robot,研究者在 10 个真实的家庭环境中对其进行了测试
header_video_ultra_ultra_com..
通过实验,他们发现,在一个从未见过的自然家居环境中,该系统零样本部署的成功率平均为 58.5%。然而,这一成功率在很大程度上取决于环境的「自然程度」。因为他们发现,通过改进查询、整理空间和排除明显具有对抗性的物体(太大、太半透明、太滑),这一成功率达到了约 82.4%
总之,通过实验,他们得出了以下结论:
该研究主要解决这个问题:从 B 上拿起 A 并将其放在 C 上,其中 A 是一个物体,B 和 C 是现实世界环境中的某个地方。要实现这一点,所提系统需要包含以下模块:
Then, we voxelize the point cloud to a 5 cm resolution and for each voxel, calculate the detector-confidence weighted average for the CLIP embeddings that belong to that voxel. This voxel map builds the base of our object memory module.
必要时,本文将「A on B」实施为「A close B」。为此,查询 A 选择前 10 个点,查询 B 选择前 50 个点。然后计算 10×50 成对欧氏距离,并选择与最短 (A, B) 距离相关的 A 点。
完成上述过程,接下来就是导航到现实世界中的对象:一旦得到了现实世界中的 3D 位置坐标,就可以将其用作机器人的导航目标来初始化操作阶段。导航模块必须将机器人放置在手臂可触到的范围,以便机器人随后可以操纵目标物体
为了从空间中的任何其他点安全地导航到目标点,简言之,通过利用之前捕获的RGB-D图像构建障碍物地图,比如创建了一个2D网格,每个单元大小为10cm×10cm,然后使用A*算法进行导航,具体而言
与开放词汇导航不同,为了完成抓取任务,算法需要与现实世界中的任意对象进行物理交互,这使得这部分变得更加困难。因此,本文选择使用预训练的抓取模型来生成现实世界中的抓取姿态,并使用 VLM 进行语言条件过滤
本文使用的抓取生成模块是 AnyGrasp,它在给定单个 RGB 图像和点云的场景中使用平行钳口夹具生成无碰撞抓取
抓握对象后,接下来就是将对象放置在什么地方。与 HomeRobot 的基线实现不同,该方法假设物体放下的位置是一个平坦的表面,本文进行了扩展,还涵盖了凹物体,如水槽、箱子、盒子和袋子。
至此,导航、抓握和放置都有了,之后就可以直接将它们组合起来,该方法可以直接应用于任何新的家庭。对于新的家居环境,该研究可以在一分钟内扫描房间。然后,只需不到五分钟即可将其处理到 VoxelMap 中。一旦完成,机器人就可以立即放置在选定的场地并开始运行。从到达一个全新的环境到开始在其中自主操作,该系统平均需要不到 10 分钟即可完成第一个取放任务
// 待更
Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理
此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作
机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作
整个流程为:图像 + speech to text =》VLM接收并做综合处理 =》NNP输出执行策略 =》 WBC执行策略且将VLM处理得到的response speak出来,具体则如下
这也是为什么这个机器人,属于「端到端」的机器人控制。从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果
OpenAI 的模型的多模态能力,是机器人可以与世界交互的关键,我们能够从视频中展示中看到许多类似的瞬间,比如:
而具体的双手动作,可以分成两步来理解:
所有行为均由Transformer 策略驱动(比如mobile aloha所用过的ACT算法,本质是一个模仿学习),将像素直接映射到动作
出门问问的李志飞认为
- Figure 01的整个框架类似于PaLM-E和RT-1的pipeline组合,即分两步:多模态模型把复杂的自然语言指令分解为简单指令后,继而调用机器人的操控系统(类似Google的RT-1)执行相应的动作
- 而非RT-2,因为RT-2中间不再需要将其转化成简单指令,通过自然语言就可得到最终的 Action,算是一个 VLA(Vision-Language-Action Model)模型
相当于RT-2全程就一个模型,但Figure 01还是组合了OpenAI的VLM + Figure公司的机器人操控小模型
RT-2的好处在于做到了真正的端到端 根据输入直接得到输出action(没有Figure 01中的机器人操控小模型),坏处是执行速度有限,故没法做到200hz的决策速度
3月下旬,清华交叉信息研究院的一团队通过这篇论文《CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models》提出了名为CoPa的机器人操控框架,其利用嵌入在基础模型中的常识知识为开放世界机器人操控生成一系列6自由度末端执行器姿势
具体而言,将操控过程分解为两个阶段:
近年来,基础模型已经极大地改变了机器人领域的格局[Toward general-purpose robots via foundation models: A survey and meta-analysis]。 许多研究采用在大规模图像数据集上进行预训练的视觉模型,用于生成视觉表征以进行视觉运动控制任务[比如A universal semanticgeometric representation for robotic manipulation、The unsurprising effectiveness of pre-trained vision models for control、Real-world robot learning with masked visual pre-training,” in Conference on Robot Learning等等]
其他一些研究利用基础模型来规定强化学习中的奖励[Vip: Towards universal visual reward and representation via value-implicit pre-training、Eureka: Humanlevel reward design via coding large language models、Learning reward functions for robotic manipulation by observing humans、Zero-shot reward specification via grounded natural language、Can foundation models perform zero-shot task specification for robot manipulation?、Liv: Language-image representations and rewards for robotic contro]
此外,许多研究利用基础模型进行机器人高层规划,取得了显著的成功,比如
- Do as i can, not as i say: Grounding language in robotic affordances
- Grounded decoding: Guiding text generation with grounded models for robot control
- Look before you leap: Unveiling the power of gpt-4v in robotic vision-language planning
- Progprompt: Generating situated robot task plans using large language models
- Physically grounded vision-language models for robotic manipulation
- Task and motion planning with large language models for object rearrangement
- Language models as zero-shot planners: Extracting actionable knowledge for embodiedagents
- Text2motion: From natural language instructions to feasible plans
- Llm+ p: Empowering large language models with optimal planning proficiency
- Robots that ask for help: Uncertainty alignment for large language model planners
- Llm-planner: Few-shot grounded planning for embodied agents with large language models
- Tidybot: Personalized robot assistance with large language models
当然了,也还有一些研究利用基础模型进行低层控制[比如Google的RT-1、RT-2、Open x-embodiment: Robotic learning datasets and rt-x model、Octo: An open-source generalist robot policy
此外,一些研究对视觉语言模型VLMs进行微调,直接输出机器人动作。 然而,这种微调方法需要大量的专家数据,为了解决这个问题
然而,这些方法依赖于复杂的提示工程,并且对场景只有粗略的理解。 与之形成鲜明对比的是,CoPa通过合理利用视觉语言模型中的常识知识,对场景有着细致入微的理解,并且能够推广到开放世界的场景,无需额外的训练,只需要最少的提示工程
机器人操控是机器人领域中一个关键且具有挑战性的方面
打开抽屉需要抓住把手并沿直线拉动,而拿起水杯则需要先抓住杯子然后抬起来。受到这一观察的启发,将方法分为两个模块:
物体的初始抓取的整个过程如下所示
首先,采用一种称为Set-of-Mark (SoM) [55]的最新视觉提示机制,其利用分割模型将图像分割成不同的区域,并为每个区域分配一个数字标记(即在粗粒度对象定位阶段,使用SoM在对象级别上检测和标记场景中的所有对象)
其次,类似人类根据预期使用方式抓取物体的特定部件(例如,当用刀切割时,我们握住刀柄而不是刀刃;同样,拿起眼镜时,我们抓住镜框而不是镜片。这个过程实质上代表了人类运用常识的能力),CoPa利用视觉语言模型(VLMs),如GPT-4V [53],它们融合了大量的常识知识[10],[54],以确定抓取物体的适当部位
最后,为了生成任务导向的抓取姿势,我们的方法首先使用抓取模型生成抓取姿势提案,并通过我们的新颖抓取部件基准模块筛选出最可行的一个
那如何生成抓取姿势的提案呢?简言之,利用预训练的抓取模型生成抓取姿势提案,具体而言
总之,回顾上述整个过程,可知分为以下三步
- VLMs的任务是根据用户的指令来确定目标对象进行抓取(例如,一个锤子)
- 然后,从图像中裁剪出所选对象,并应用细粒度部件定位来确定要抓取的具体部位(例如,锤子的把手)。 这种由粗到细的设计赋予了CoPa对复杂场景的细粒度物理理解能力,实现了泛化
- 最后,我们过滤抓取姿势候选,将所有抓取点投影到图像上,并仅保留在抓取部件掩码内的点。 从中选择GraspNet评分最高的姿势作为最终的执行抓取姿势
// 待更
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。