赞
踩
时间:2022/12/13
团队:robotics at google
会议:RSS2
通过从大型、多样化的任务识别数据集转移知识,现代机器学习模型可以解决特定的下游任务,无论是零样本还是使用小型任务特定数据集,都可以达到高性能水平 。zero-shot or with small task-specific datasets to a high level of performance
虽然这种能力已经在计算机视觉、自然语言处理或语音识别等其他领域得到了证明,但它仍有待于机器人领域的展示,因为难以收集真实世界的机器人数据,因此模型的泛化能力尤其关键 the generalization capabilities of the models are particularly critical。
我们认为,这种通用机器人模型成功的关键之一在于开放式任务无关训练,以及能够吸收所有不同机器人数据的高容量架构。
我们提出了一个模型类,称为Robotics Transformer,它具有很好的可扩展模型特性。
我们在一项研究中验证了我们的结论,研究了不同的模型类别,以及它们作为数据大小、模型大小和数据多样性的函数的泛化能力,该研究基于执行现实世界任务的真实机器人的大规模数据收集。
这种模型(NLP等领域)成功的关键在于开放式的任务不可知训练,结合可以吸收大规模数据集中所有知识的高容量架构。如果一个模型可以“吸收”经验来学习语言或感知的一般模式,那么它就可以更有效地将它们用于单个任务。
The keys to the success of such models lie with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the knowledge present in large-scale datasets. If a model can "sponge up" experience to learn general patterns in language or perception, then it can bring them to bear on individual tasks more efficiently.
旨在训练一种可以用在各类机器人任务上的通用模型:a single, capable, large multi-task backbone model on data consisting of a wide variety of robotic tasks
这样的模型是否享有在其他领域观察到的好处,表现出对新任务、环境和对象的零概率泛化 zero-shot generalization?
当前大型多任务机器人policies存在的问题:
two main challenges:
研究结果:
We aim to learn robot policies to solve language-conditioned tasks from vision.
硬件:We use mobile manipulators from Everyday Robots, which have a 7 degree-of-freedom arm, a two-fingered gripper, and a mobile base
environments:use three kitchen-based environments,一个训练厨房环境,两个真实厨房环境
训练数据:由人类提供的演示组成并对每个episode用机器人执行指令的文本描述进行标注;指令instruction包含一个动词和多个名词;最大的数据集包含超过130k个单独的演示,包括使用各种各样的对象的700多个不同的任务指令
RT-1:
RT-1执行闭环控制,并以3hz的频率命令动作
整体结构
RT-1's image and instruction tokenization via FiLM EfficientNet-B3 is a total of 16M parameters, with 26 layers of MBConv blocks and FiLM layers, which output 81 vision-language tokens.
TokenLearner将从预训练的film - effentnet层中产生的81个视觉标记子采样到仅8个最终标记,然后传递到我们的Transformer层
与历史张图连接形成48个tokens输入RT-1的Transformer主干
Transformer是一个只有解码器的序列模型,具有8个自self-attention层和19M参数,可输出action tokens
standard categorical cross-entropy entropy objective
causal masking in prior Transformer-based controllers
at least 3Hz control frequency
the resulting inference time budget for the model to be less than 100ms
性能评价说明:
列出实验结果:
刊物:Annual Review of Control, Robotics, and Autonomous Systems
Annual Review of Control, Robotics, and Autonomous Systems - 知乎 (zhihu.com)
日期:2020/5/3
从演示中学习 learning from demonstrations (LfD)是机器人通过学习模仿专家来获取新技能的范式。当ideal behavior 既不能像传统机器人编程那样轻松编写脚本,也不能轻松定义为优化问题,但可以演示时,选择LfD而不是其他机器人学习方法是compelling的。本调查旨在概述用于使机器人能够向老师学习和模仿的机器学习方法。我们专注于该领域的最新进展,以及现有方法的更新分类和表征 an updated taxonomy and characterization 。我们还讨论了LfD的成熟和新兴应用领域,并强调了在理论和实践中仍需克服的重大挑战。
一般来说,演示方法分为三类:
局限性
Policy learning methods分类:
输入必须充分捕捉生成最佳操作所需的信息
根据策略所属的数学函数类型来分类
追求多种学习结果可以在多个抽象层次上学习复杂行为。
一些研究所采用的方法
Manipulators are perhaps the most popular application platform for LfD methods.、
Manufacturing
Assisting and Healthcare Robotics
提出了对安全运行的要求,可以通过提供学习策略的收敛性和稳定性保证来满足这一要求
Human-Robot Interaction (HRI)
Ground Vehicles
此类平台的演示通常通过小型车辆的操纵杆远程操作提供。动觉教学可以应用于大型交通工具,如汽车,其中人类坐在驾驶员座位上,并通过驾驶表现出期望的行为
Aerial Vehicles
LfD已被证明在教导飞行器在混乱环境中导航方面是有效的
训练飞行机器人的演示通常通过远程操作来完成。因此,训练主要用于教授所需的轨迹,而机器人的稳定性则由传统的控制方法来处理。
Bipedal and Quadrupedal Robots
LfD方法已成功用于两足机器人学习行走和步态优化
训练两足机器人的演示可以通过远程操作或观察引入,其中人类演示者的步态可以通过适当的传感器捕获,并通过导出对应映射传递到机器人
Underwater Vehicles
不同类型的LfD算法提供了不同的好处,使其适用于不同的场景和问题
Non-expert robot programming
Data efficiency
Safe Learning
Performance guarantees
可以通过为算法一致且成功地执行任务的能力提供理论保证
例如,许多基于动力学系统的轨迹学习方法提供了强大的收敛保证
Platform independence
利用专家演示学习与平台无关的策略、成本函数和计划
例如,dynamical movement primitives(DMP)算法已被用于各种平台,包括机械手、机械手、类人机器人和飞行器
Demonstrating complex behaviors
需要这些空间之间存在映射,但由于两个系统在运动约束和维度方面的差异,这可能很难实现
捕捉演示的感知系统继承了与计算机视觉相关的局限性,如遮挡、姿态估计和噪声
Reliance on labeled data
Sub-optimal and inappropriate demonstrators
由于演示很少涵盖问题空间的所有部分,机器人可能会发现输入与演示场景不同。这导致了一种被称为变量偏移 covariate shift 或误差复合的现象compounding of error
一种避免错误复合的解决方案利用与用户的交互来获得纠正演示
我们需要能够将所获得的信息外推到新场景的学习方法,更重要的是,估计所学习的Policy对新场景的适用性
与泛化相关的另一个关键挑战涉及the selection of the hypothesis class(the set of all possible functions that we consider when learning)的
目前尚不清楚如何系统地选择给定技能或一组技能的假设类别以帮助有效解决偏差-方差权衡问题bias-variance trade-off
Hyper-parameter selection
建模高度非线性的关系可能需要大量的隐藏单元,而不太复杂的关系需要更少的单元
基于DMP的方法的一个重要超参数是径向基函数(RBF)的数量。高度非线性的运动需要对更多的RBF进行建模。然而,如果演示的运动并不复杂但使用了相对大量的RBF,那么模型也会捕获演示中引入的噪声,从而导致过度拟合
状态-动作表示通常被建模为高斯混合模型(GMM)。在GMM中,与上述情况类似,高斯分量数量的选择会影响估计函数的复杂性
Evaluation and Benchmarking
Other Challenges
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。