赞
踩
在ChatGPT之后,具身智能(Embodied AI)这个大模型概念火了,那什么是具身智能呢?
具身智能作为人工智能发展的一个重要分支,正在迅速崭露头角,成为科技界和大众关注的热门话题,同时在各个领域中展现出巨大的潜力和吸引力
具身智能通过在物理世界和数字世界的学习和进化,达到理解世界、互动交互并完成任务的目标。
具身智能是由“本体”和“智能体”耦合而成且能够在复杂环境中执行任务的智能系统。
以上概念是等价的:
Embodied AI = Embodied Intelligence = 具象AI = 具身智能`
Internet AI = Disembodied AI = 非具身智能
具身(Embodiment):指具有支持感觉和运动(sensorimotor)的物理身体。
具身的 (Embodied):具有身体的,可参与交互、感知的。
具身智能(Embodied AI):有身体并支持物理交互的智能体,如家用服务机器人、无人车等。 —— “身体力行”
非具身智能(Disembodied AI):没有物理身体,只能被动接受人类采集、制作好的数据 。—— “纸上谈兵”或者说 “运筹帷幄”
具身智能机器人:满足具身智能的能力的机器人. 即具身智能机器人:首先,要能够听懂人类语言,然后,分解任务,规划子任务,移动中识别物体,与环境交互,最终完成相应任务
具身任务:像人类一样通过观察、移动、说话和与世界互动从而完成的一系列任务。
多模态:是指一个模型或系统能够处理多种不同类型的输入数据并融合它们生成输出。这些数据类型可能包括文本、图像、音频和视频等。
主动交互:机器人或智能体与环境的实时交互,从而提高智能体的学习、交流和应对问题的能力。
Internet AI从互联网收集到的图像、视频或文本数据集中学习,这些数据集往往制作精良,其与真实世界脱节、难以泛化和迁移。1)数据到标签的映射。2)无法在真实世界进行体验学习。3)无法在真实世界做出影响。
Embodied AI通过与环境的互动,虽然以第一视角得到的数据不够稳定,但这种类似于人类的自我中心感知中学习,从而从视觉、语言和推理到一个人工具象(Artificial Embodiment),可以帮助解决更多真实问题
一般认为,具身智能具有如下的四大核心要素:
需要有强大的通用本体平台:
设计强大的智能体系统
高质量的行业数据将成为巨大挑战
通过虚拟和真实的交互,持续学习和进化的能力,则是具身智能演进的重要技术途径
PaLM-E: An Embodied Multimodal Language Model: 一个具身多模态语言模型
论文提出了一个具身多模态语言模型,通过将真实世界的连续传感器模态直接融入语言模型中,实现了单词和感知之间的联系。实验结果表明,PaLM-E可以处理来自不同观察模态的各种具身推理任务,并在多个实现上表现出良好的效果。最大的PaLM-E-562B模型拥有562亿个参数,除了在机器人任务上进行训练外,还是一个视觉语言通才,并在OK-VQA任务上取得了最先进的性能。
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
采用语言模型实现机器人操作的可组合3D价值图
论文提出了一种名为VoxPoser的方法,利用大型语言模型和视觉语言模型来合成机器人轨迹。作者发现,LLM可以通过自然语言指令推断出环境和物体的能力和限制,并通过与VLM交互来组合3D值图,将知识转化为代理的观察空间。这些组合的值图然后被用于基于模型的规划框架中,以零样本合成闭环机器人轨迹,并对动态扰动具有鲁棒性。
March in Chat: Interactive Prompting for Remote Embodied Referring Expression
远程具身指代表达的交互提示
论文提出了一种名为March-in-Chat的模型,可以在REVERIE环境中与大型语言模型进行交互并动态规划。REVERIE任务只提供高级指令给代理,类似于人类的实际命令,因此比其他VLN任务更具挑战性。MiC模型通过ROASP实现了环境感知和动态规划,可以基于新的视觉观察调整导航计划,并且能够适应更大、更复杂的REVERIE环境。
Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions
通过多专家讨论实现视觉语言导航
论文提出了一种零样本视觉语言导航框架DiscussNav,通过多专家讨论来帮助代理进行导航。作者认为现有的VLN方法完全依赖单一模型自身的思考来进行预测,而即使是最先进的大型语言模型GPT4,在单轮自我思考中仍然难以处理多个任务。因此,作者借鉴了专家咨询会议的思想,将具有不同能力的大模型作为领域专家,让代理在每一步移动之前与这些专家积极讨论,收集关键信息。实验结果表明,该方法可以有效地促进导航,感知与指令相关的信息,纠正意外错误并筛选出不一致的运动决策
Skill Transformer: A Monolithic Policy for Mobile Manipulation
用于移动操作的单体策略
论文提出了Skill Transformer,一种结合条件序列建模和技能模块性来解决长视野机器人任务的方法。该方法在机器人的自适应和感知观察上基于条件序列模型,并通过训练使用Transformer架构和演示轨迹来预测机器人的高级技能(如导航、选择、放置)和整体低级动作(如基座和手臂运动)。它保留了整个任务的可组合性和模块性,通过一个技能预测模块来推理低级动作并避免常见于模块化方法的传递误差。
See to Touch: Learning Tactile Dexterity through Visual Incentives
通过视觉激励学习触觉灵活性
论文提出了一种名为Tactile Adaptation from Visual Incentives (TAVI)的新框架,通过使用视觉奖励来优化基于触觉的灵巧性策略,从而提高多指机器人的精确度、丰富性和灵活性。在六个具有挑战性的任务中,TAVI使用四指Allegro机器人手实现了73%的成功率,比使用基于触觉和视觉奖励的策略提高了108%,比不使用基于触觉观察输入的策略提高了135%。
Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents
用于执行指令的具身代理的上下文感知规划和环境感知记忆
论文提出了一种CAPEAM方法,用于改善具身代理在视觉导航和对象交互方面的表现。该方法考虑了执行动作的后果,并将语义上下文和已交互物体的状态变化纳入一系列动作中,以推断后续动作。实验证明,该方法在各种指标上实现了最先进的性能,并在未见过的环境中获得了大幅提高。
Statler: State-Maintaining Language Models for Embodied Reasoning
用于具身推理的状态维护语言模型
论文提出了一种名为Statler的框架,用于赋予大型语言模型(LLM)对世界状态的显式表示,可以随着时间的推移进行维护。通过使用两个通用LLM实例——世界模型阅读器和世界模型写入器——与世界状态进行交互和维护,Statler提高了现有LLM在较长时间范围内推理的能力,而不受上下文长度的限制。
Embodied Task Planning with Large Language Models
基于大型语言模型的具身任务规划
本研究提出了一种名为TAsk Planing Agent(TaPA)的基于场景约束的具身任务规划方法,用于在真实世界中生成可执行的计划。该方法通过将大型语言模型与视觉感知模型对齐,根据场景中已存在的对象生成可执行计划。另外,作者还构建了一个多模态数据集,并使用GPT-3.5生成了大量的指令和相应的计划动作。
Conditionally Combining Robot Skills using Large Language Models
使用大型语言模型有条件地组合机器人技能
论文提出了两个贡献。首先,介绍了一个名为“Language-World”的Meta-World基准扩展,允许大型语言模型在模拟机器人环境中使用自然语言查询和脚本化技能进行操作。其次,引入了一种称为计划条件行为克隆(PCBC)的方法,可以使用端到端演示微调高级计划的行为。使用Language-World,表明PCBC能够在各种少数情况中实现强大的性能,通常只需要单个演示即可实现任务泛化。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。