当前位置:   article > 正文

大模型机器人的爆发时刻:OpenAI参与打造的Figure 01——直接口头让机器人整理桌面_openai和figure机器人背后的技术原理是什么?

openai和figure机器人背后的技术原理是什么?

前言

一年多前,OpenAI重塑了聊天机器人,彻底推动大模型技术的突飞猛进,一个月前,OpenAI又重塑了视频生成,当sora的热度还在持续时,没想到OpenAI在机器人领域也出手了,和Figure联合打造的人形机器人,边与人类自然流畅对话、边干活(给人类苹果、整理桌面)

第一部分  Figure人形机器人

1.1 史无前例:Figure人形机器人的惊艳时刻

1.2 机器人与人类流畅对话并流畅干活背后的原理

Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理

此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作

机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作

整个流程为:图像 + speech to text =》VLM接收并做综合处理 =》NNP输出执行策略 =》 WBC执行策略且将VLM处理得到的response speak出来,具体则如下

  1. 研究人员将机器人摄像头中的图像输入(Figure 的机载摄像头以 10hz 的频率拍摄图像),和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中
    由该VLM模型处理对话的整个历史记录,且对于接下来要采取什么动作干活已有大概的规划
  2. 然后通过Neural Network Policies细化「VLM给定的大概规划」,得到更具体的动作策略(决定在机器人上运行哪些学习到的闭环行为来完成给定的命令)
  3. 最后,一方面将特定的神经网络权重加载到 GPU 上并执行策略(相当于Whole body controller)
    二方面 通过VLM处理得到的语言响应通过文本到语音的方式将其speak给人类

这也是为什么这个机器人,属于「端到端」的机器人控制。从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果

1.2.1 OpenAI的VLM模型:理解环境 + 人类的口头任务 + 基本的常识和上下文记忆能力

OpenAI 的模型的多模态能力,是机器人可以与世界交互的关键,我们能够从视频中展示中看到许多类似的瞬间,比如:

  1. 描述一下它的周围环境
  2. 做出决定时使用常识推理。例如,「桌子上的盘子和杯子等餐具接下来很可能会进入晾衣架」
  3. 比如在视频中,当人说“我饿了”,Figure思考了2-3秒后(因为语音识别、大语言模型、TTS是通过pipeline方式连起来的,都需要计算时间),小心翼翼地伸手抓住苹果,并迅速给人递过来
    因为Figure基于大语言模型的常识,明白苹果是它面前唯一可以“吃”的事物,在人类没有任何提示和说明的前提下,即可以接近于人类的反应速度,与人自然交互
    相当于有了大模型的支持,让该机器人具备了一定的常识
  4. 比如视频中展示的「你能把它们放在那里吗?」「它们」指的是什么?「那里」又在哪里?正确回答需要反思记忆的能力(能够拥有短期记忆的背后益于大模型的长上下文的理解能力,使得可以精准抓取长上下文里的指代关系)

1.2.2 机器人操控小模型(类似Google的RT-1):输出action

而具体的双手动作,可以分成两步来理解:

  1. 首先,互联网预训练模型对图像和文本进行常识推理,以得出高级计划。如视频中展示的:Figure 的人形机器人快速形成了两个计划:
    1)将杯子放在碗碟架上,2)将盘子放在碗碟架上
  2. 其次,一个基于neutral network的机器人操控小模型以 200hz 的频率(RT-2论文里提到的决策频率则只有1到5hz)生成的 24-DOF 动作(手腕姿势和手指关节角度),充当高速「设定点(setpoint)」,供更高速率的全身控制器跟踪。全身控制器确保安全、稳定的动力,如保持平衡

所有行为均由Transformer 策略驱动(比如mobile aloha所用过的ACT算法,本质是一个模仿学习),将像素直接映射到动作

出门问问的李志飞认为

  1. Figure 01的整个框架类似于PaLM-E和RT-1的pipeline组合,即分两步:多模态模型把复杂的自然语言指令分解为简单指令后,继而调用机器人的操控系统(类似Google的RT-1)执行相应的动作
  2. 而非RT-2,因为RT-2中间不再需要将其转化成简单指令,通过自然语言就可得到最终的 Action,算是一个 VLA(Vision-Language-Action Model)模型
    相当于RT-2全程就一个模型,但Figure 01还是组合了OpenAI的VLM + Figure公司的机器人操控小模型

    RT-2的好处在于做到了真正的端到端 根据输入直接得到输出action(没有Figure 01中的机器人操控小模型),坏处是执行速度有限,故没法做到200hz的决策速度

参考文献与推荐阅读

  1. 只用 13 天,OpenAI 做出了能听、能说、能自主决策的机器人大模型
  2. 国内创业者和投资人如何看待 Figure 01 机器人:距离具身智能还有多远?
  3. OpenAI 和 Figure 机器人背后的技术原理是什么?
  4. OpenAI没有放弃的机器人梦想 | 甲子光年
  5. 斯坦福家务机器人Mobile ALOHA的关键技术:动作分块算法ACT的原理解析
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/298623
推荐阅读
相关标签
  

闽ICP备14008679号