赞
踩
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
RT-2: Vision-Language-Action Models
Abstract:
我们研究了如何将基于互联网规模数据训练的视觉语言模型直接纳入端到端机器人控制中,以提高泛化能力并实现紧急语义推理。我们的目标是使一个端到端训练的模型既能学习将机器人的观察映射到动作,又能享受对网络语言和视觉语言数据进行大规模预训练的好处。为此,我们建议在机器人轨迹数据和互联网规模的视觉语言任务(如视觉问答)上共同微调最先进的视觉语言模型。与其他方法相比,我们提出了一个简单、通用的方法来实现这一目标:为了将自然语言响应和机器人动作都适应相同的格式,我们将动作表示为文本标记,并以与自然语言标记相同的方式将其直接合并到模型的训练集中。我们将这类模型称为视觉语言动作模型(VLA),并实例化这样一个模型的示例,我们称之为RT-2。我们的广泛评估(6k评估试验)表明,我们的方法导致了高性能的机器人策略,并使RT-2能够从互联网规模的训练中获得一系列紧急能力。这包括显著提高对新对象的泛化能力,解释机器人训练数据中不存在的命令的能力(例如将对象放置在特定数字或图标上),以及响应用户命令执行基本推理的能力(如拾取最小或最大的对象,或最接近另一对象的对象)。我们进一步证明,结合思维链推理可以让RT-2进行多阶段的语义推理,例如找出哪种物体可以用作即兴锤(岩石),或者哪种饮料最适合疲劳的人(能量饮料)。
Introduction:
在广泛的网络规模数据集上进行预训练的大容量模型为各种下游任务提供了一个有效而强大的平台:大型语言模型不仅可以生成流畅的文本(Anil等人,2023年;Brohan等人,2022年;OpenAI,2023年),还可以解决突发问题(Cobbe等人,2021年;Lewkowycz等人,2022年;Polu等人,2022年),以及创造性地生成文本、2022;OpenAI,2023),还能解决问题(Cobbe等人,2021;Lewkowycz等人,2022;Polu等人,2022)以及创造性地生成散文(Brown等人,2020;OpenAI,2023)和代码(Chen等人,2021),而视觉语言模型则能实现开放词汇的视觉识别(Kirillov等人,2023;Minderer等人,2023)、2023;Minderer等人,2022;Radford等人,2021),甚至可以对图像中的对象--代理交互做出复杂的推断(Alayrac等人,2022;Chen等人,2023a,b;Driess等人,2023;Hao等人,2022;Huang等人,2023;Wang等人,2023)、语义推理、问题解决和视觉解读能力对于必须在真实世界环境中执行各种任务的通用机器人来说非常有用。然而、目前还不清楚机器人应如何获得这种能力。蛮力方法可能需要收集数以百万计的机器人交互试验,而最有能力的语言和视觉语言模型是在数十亿个网络标记和图像上训练出来的(Alayrac等,2022年;Chen等,2023a,b;Huang等,2023年)--在不久的将来,机器人的数据量不可能与之匹配。另一方面,将这类模型直接应用于机器人任务也很困难:这类模型推理的是语义、标签和文本提示,而机器人需要的是底层动作,如笛卡尔末端执行器指令。虽然最近有许多研究试图将语言模型(LLMs)和视觉语言模型(VLMs)纳入机器人学(Ahn等人,2022年;Driess等人,2023年;Vemprala等人,2023年),但这些方法一般针对的是语言模型和视觉语言模型、2023),这些方法一般只涉及机器人规划的"较高层次"方面,基本上是扮演状态机的角色,解释指令并将其解析为单个基元(如拾取和放置物体),然后由单独的低层次控制器执行,而这些控制器本身在训练过程中并不能从互联网规模模型的丰富语义知识中获益。因此,我们在本文中提出:能否将大型预训练视觉语言模型直接集成到底层机器人控制中,以提高泛化能力并实现新兴语义推理?
我 们 在 项 目 网 站 上 展 示 了 RT-2 的 执 行 示 例 : roboticstransformer2.github.io
为此,我们探索了一种既简单又出奇有效的方法:我们直接训练专为开放词汇视觉问题解答和视觉对话设计的视觉语言模型,以输出低级机器人动作,同时解决其他互联网规模的视觉语言任务。虽然此类模型通常是为生成自然语言标记而训练的,但我们可以通过将动作标记化为文本标记,并创建"多模态句子"(Driessetal.通过这种方式,视觉语言模型可以直接训练成遵循机器人策略的指令。这种简单的方法与之前将视觉语言模型纳入机器人策略或从头开始设计新的视觉语言-动作架构(Reed等人,2022)的方法截然不同:相反,已经存在的视觉语言模型已经摊销了大量的计算投资,无需任何新参数即可训练输出文本编码动作。我们将这类模型称为视觉-语言-动作(VLA)模型。我们在RT-1模型(Brohan等人,2022年)的基础上,使用类似的数据集,将VLA模型实例化,但将模型扩展为使用大型视觉语言骨干。因此,我们将我们的模型称为RT-2(RoboticsTransformer2)。我们在图1中提供了一个概览。
我们观察到,从这种视觉语言模型中衍生出来的机器人策略展现出了一系列非凡的能力,将从机器人数据中学到的物理运动与从网络数据中学到的图像和文本解读能力结合到了一个单一的模型中。除了大幅提高对新物体和不同语义指令的泛化能力这一预期优势外,我们还观察到了一些新出现的能力。虽然模型的物理技能仍局限于机器人数据中的技能分布,但通过使用从网络中收集的知识来解释图像和语言指令,模型获得了以新方式部署这些技能的能力。图2显示了一些重点示例。模型能够重新利用从机器人数据中学到的拾取和放置技能,将物体放置在语义指示的位置附近,例如特定的数字或图标,尽管机器人数据中没有这些提示。该模型还能解释物体之间的关系,以确定拾取哪个物体以及将其放置在何处,尽管机器人演示中并未提供此类关系。此外,如果我们用思维链提示来增强指令,模型还能做出更复杂的语义推断,例如找出哪个物体可以捡起来用作简易锤子(石头),或者哪种饮料最适合疲惫的人(能量饮料)。
我们的主要贡献是RT-2,它是通过微调在网络规模数据上训练的大型视觉语言模型而衍生出的模型系列,可直接作为可通用的语义感知机器人策略。我们的实验研究了在互联网数据和先前工作(Brohan等,2022年)中的指令注释机器人轨迹上训练的多达55B参数的模型。在对6k台机器人进行评估的过程中,我们发现RT-2能显著提高对物体、场景和指令的泛化能力,并展现出从网络规模视觉语言预训练中继承的广泛新兴能力。
Related Work
视觉语言模型。视觉语言模型(VLMs)有多种类型(Gan等人,2022年),其中最相关的可能有两种:(1)表征学习模型,如CLIP(Radford,2022年);(2)表征学习模型,如CLIP(Radford,2022年)。等人,2021年),学习两种模态的共同嵌入;以及(2){视觉、文本}→{文本}形式的视觉语言模型,学习将视觉和语言作为输入,并提供自由形式的文本。→{text}形式的视觉语言模型,这种模型学习将视觉和语言作为输入,并提供自由形式的文本。这两类模型都被用于为各种应用提供预训练。在下游应用中,如物体分类(Radford等人,2021年)、检测(Gu等人,2021年)和分割(Ghiasi等人,2021年)。在这项工作中,我们主要关注后一类(Alayrac等,2022年;Chen等,2023a,b;Driess等,2023年;Hao等,2022年;Li等,2023年,2019年;Lu等,2019年)。这些模型通常在多个数据集上同时进行多种不同任务的训练,如图像字幕、视觉问题解答(VQA)和一般语言任务。虽然之前的研究针对包括机器人在内的各种问题和环境研究了VLM,但我们的重点是如何通过赋予VLM预测机器人行动的能力,将其功能扩展到机器人闭环控制中,从而利用VLM中已有的知识实现新水平的泛化。
机器人学习中的泛化。开发能在各种场景中取得广泛成功的机器人控制器是机器人研究的 长期目标(Kaelbling,2020 年;Smith 和 Coles,1973 年)。在机器人操纵中实现泛化的一种 有前途的方法是从大型和多样化的数据集中学习(Dasari 等人,2019 年;Levine 等人,2018 年;Pinto 和 Gupta,2016 年)。通过这样做,先前的方法已经证明了机器人如何能够泛化到 新的物体实例(Finn 和 Levine,2017 年;Levine 等人,2018 年;Mahler 等人,2017 年; Pinto 和 Gupta,2016 年;Young 等人,2021 年),以及涉及物体和技能新组合的任务( Dasari 和 Gupta,2021 年;Finn 等人,2017 年;James 等人,2018 年)、2017;James 等人, 2018;Jang 等人,2021;Yu 等人,2018),新目标或语言指令(Jang 等人,2021;Jiang 等 人,2022;Liu 等人,2022;Mees 等人,2022;Nair 等人,2022a;Pong 等人,2022b).具有新语义对象类别的任务(Shridhar等人,2021年;Stone等人,2023年)以及未见环境(Cui等人,2022年;Du等人,2023年a;Hansen等人,2020年)。与之前的大多数研究不同,我们的目标是开发和研究一个单一的模型,该模型可以在所有这些轴上泛化到未知条件。我们方法的一个关键要素是利用预先训练好的模型,这些模型所接触的数据要比机器人看到的数据广泛得多。
机器人操纵的预训练。预训练在机器人学习中由来已久。大多数研究都集中在预训练视觉表征上,这些表征可用于初始化机器人摄像头观测数据的编码器,可通过有监督的ImageNet分类(Shah和Kumar,2021年)、数据增强(Kostrikov等人,2020年;Laskin等人,2020a,b年;Pari等人,2021年)或目标来实现、2020年;Laskin等人,2020a,b;Pari等人,2021年)或针对机器人控制的目标(Karamcheti等人,2023年;Ma等人,2022年;Majumdar等人,2023b;Nair等人,2022b;Xiao等人,2022b)。其他研究还纳入了预训练的语言模型,通常作为指令编码器(Brohan等人,2022;Hill等人,2020;Jang等人,2021;Jiang等人,2022;Lynch和Sermanet,2020;Nair等人,2022a;Shridhar等人,2022b)、2022a;Shridhar等人,2022b)或用于高级规划(Ahn等人,2022;Driess等人,2023;Huang等人,2022;Mu等人,2023;Singh等人,2023;Wu等人,2023)。我们没有使用预先训练的视觉模型或预先训练的语言模型,而是特别考虑使用预先训练的视觉-语言模型(VLM),这些模型提供了关于世界的丰富的基础知识。之前的研究已将VLMs用于机器人技术(Driess等人,2023年;Du等人,2023年b;Gadre等人,2022年;Karamcheti等人,2023年;Shah等人,2023年;Shridhar等人,2021年;Stone等人,2023年),这也是本研究的部分灵感来源。这些先前的方法将VLM用于视觉状态表示(Karamcheti等人,2023年)、识别物体(Gadre等人,2022年;Stone等人,2023年)、高层次规划(Driess等人,2023年)或提供监督或成功检测(Du等人,2023年b;Ma等人,2023年;Sumers等人,2023年;Xiao等人,2022年a;Zhang等人,2023年)。虽然CLIPort(Shridhar等人,2021年)和MOO(Stone等人,2023年)将预先训练好的VLM集成到端到端的视觉运动操纵策略中,但两者都在策略中加入了重要的结构,从而限制了其适用性。值得注意的是,我们的工作并不依赖于受限的二维动作空间,也不需要校准过的摄像头。此外,一个关键的区别在于,与这些研究不同的是,我们利用的是能生成语言的VLM,而且我们所制定的统一输出空间能让模型权重在语言和动作任务中完全共享,而无需引入仅用于动作的模型层组件。
Vision-Language-Action Models
在本节中,我们将介绍我们的模型系列,以及使训练VLM能够直接执行闭环机器人控制的设计选择。首先,我们将介绍我们模型的一般架构,以及如何从常用于视觉语言任务的模型中衍生出这些模型。然后,我们介绍了微调大型VLM的方法和挑战,这些VLM在网络规模的数据上经过预训练,可直接输出机器人动作,成为VLA模型。最后,我们将介绍如何使这些模型实用于机器人任务,解决模型大小和推理速度方面的挑战,从而实现实时控制。
Pre-Trained Vision-Language Models
我们在这项工作中建立的视觉语言模型(Chen等人,2023a;Driess等人,2023)将一幅或多幅图像作为输入,并产生一串传统上代表自然语言文本的标记。这类模型可以执行广泛的视觉解释和推理任务,从推断图像的构成到回答有关单个物体及其与其他物体关系的问题(Alayrac等人,2022;Chen等人,2023a;Driess等人,2023;Huang等人,2023)。表示执行如此广泛的任务所需的知识需要大型模型和网络规模的数据集。在这项工作中,我们对之前提出的两个VLM进行了调整,使其成为VLA模型:PaLI-X(Chen等人,2023a)和PaLM-E(Driess等人,2023)。我们将这些模型的视觉语言行动版本称为RT-2-PaLI-X和RT-2-PaLM-E。我们利用这些模型的实例,其参数规模从数十亿到数百亿不等。我们将在附录D中详细介绍这两个模型的架构。
Robot-Action Fine-tuning
要使视觉语言模型能够控制机器人,就必须训练它们输出动作。我们采用直接方法解决这一问题,在模型输出中将动作表示为标记,并以与语言标记相同的方式处理。我们的动作编码以Brohan等人(2022年)为RT-1模型提出的离散化为基础。动作空间包括机器人末端执行器的6-DoF位置位移和旋转位移、机器人抓手的伸展程度以及用于终止情节的特殊离散指令,该指令应由策略触发,以发出成功完成的信号。连续维度(除离散终止指令外的所有维度)被均匀地离散为256个二进制。因此,机器人的动作可以用8个整数来表示。为了使用这些离散化的动作将视觉语言微调为视觉语言-动作模型,我们需要将模型现有标记化的标记与离散化的动作分仓联系起来。这需要保留256个标记作为行动标记。选择哪种标记符取决于每个VLM所使用的特定标记化方法,我们将在本节稍后讨论。为了确定VLM微调的目标,我们将把每个维度的动作标记与空格符号连接起来,从而将动作向量转换为单个字符串:
这样一个目标的实例可能是"1128912415101127".我们在实验中微调的两个VLM--PaLIX(Chen等人,2023a)和PaLM-E(Driess等人,2023)使用了不同的标记化方法。在PaLI-X模型中,1000以内的整数都有一个唯一的标记,因此我们只需将动作箱与代表相应整数的标记相关联。而PaLM-E模型没有提供这种方便的数字表示法,因此我们只需覆盖256个使用频率最低的标记来表示动作词汇。值得注意的是,用动作标记覆盖现有标记来训练VLM是一种符号调整(Wei等人,2023年),这在之前的工作中已被证明对VLM非常有效。
根据上述动作表示法,我们将机器人数据转换为适合VLM模型微调的数据,其中输入包括机器人摄像头图像和文本任务描述(使用标准VQA格式"问:机器人应该对[任务指令]采取什么行动?答:"),我们的输出格式为代表机器人动作的数字/最不常用标记字符串。
共同微调。正如我们将在实验中展示的那样,提高机器人性能的训练配方的一个关键技术细节是将机器人数据与原始网络数据进行联合微调,而不是仅对机器人数据进行天真的微调。我们注意到,由于在微调过程中,策略会同时接触到网络数据中的抽象视觉概念和低层次的机器人动作,而不仅仅是机器人动作,因此共同微调会带来更多通用策略。在联合微调过程中,我们通过增加机器人数据集的采样权重来平衡每个训练批次中机器人和网络数据的比例。
输出限制。RT-2与标准VLM之间的一个重要区别是,RT-2必须输出有效的动作令牌才能在真实机器人上执行。因此,为了确保RT-2在解码过程中输出有效的动作令牌,我们对其输出词汇进行了限制,即只有在提示模型执行机器人动作任务时,才能对有效的动作令牌进行采样,而在标准视觉语言任务中,模型仍可输出全部自然语言令牌。
Real-Time Inference
现代VLM的规模可达数百亿或数千亿个参数(Chen等,2023a;Driess等,2023)。本研究中训练的最大模型使用了55B个参数。在标准台式机或实时机器人控制常用的机器人GPU上直接运行这样的模型是不可行的。据我们所知,我们的模型是有史以来用于直接闭环机器人控制的最大模型,数量级超过一个数量级,因此需要一套新的解决方案来实现高效的实时推理。我们开发了一种协议,通过将RT-2模型部署到多TPU云服务中并通过网络查询该服务,可以在机器人上运行RT-2模型。有了这种解决方案,我们就能实现适当的控制频率,还能使用同一云服务为多个机器人提供服务。我们评估过的最大模型,即55B参数的RT-2PaLI-X-55B模型,运行频率可达1-3Hz。该模型的较小版本由5B个参数组成,运行频率约为5Hz。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。