赞
踩
《我的世界》(Minecraft)是全球销量领先的游戏,它包含生存、探索以及创造等丰富的游戏元素,类似一个袖珍的现实世界。包括 DeepMind、OpenAI 在内全球许多著名研究团队,都在以《我的世界》为平台进行 AI 具身智能体的相关研究工作,期望可以构建一个真正可以以类人的方式解决各种开放任务的通用具身智能体。
目前有很多的工作尝试用大语言模型来解决《我的世界》中的开放世界任务,尤其是长时序任务(比如从头开始挖到一颗钻石)。
Voyager [1] 利用 GPT 等大语言模型强大的推理能力构造了一个可以自主学习的智能体,可以充分探索开放世界并解锁科技树。GITM [2] 同样也借助大语言模型的推理能力配合文本记忆构建了一个轻松完成长时序任务的智能体,其挖钻石的成功率达到惊人的 67.5%。
但是无论是 Voyager [1] 还是 GITM [2] 都是在探索大语言模型的推理规划能力,而忽略了规划过程需要视觉感知环节,因为 Voyager [1] 和 GITM [2] 都假定智能体可以在规划决策的时候获取所有正确的环境感知信息,直接从《我的世界》中获取特权的环境文本信息并直接越过感知环境的过程来进行动作的规划。
后续的 JARVIS-1 [3] 也在此基础上构建了一个环境词库,利用当前的环境图片匹配词库中的文本信息,并将和当前环境足够相似的词交给 GPT 等大语言模型来整合描述环境的语句,以此“感知”当前环境。
但是这种感知的方式面对开放世界就不太适用,一是因为开放世界需要感知的信息太多,感知的结果如果依赖于既定的环境词库,丰富性较差,二是因为这种感知方式不具有目的性,感知的结果有可能包含很多与任务无关的信息,这会影响后续的规划抉择。
因此如何让具身智能体在开放世界复杂环境中更好地感知,并以此完成一些需要大量环境信息的开放性任务面临着两个挑战:1. 怎样更好地进行长时序的规划(即 process dependency);2. 怎样在开放世界更好地感知环境信息(即 context dependency)。
例如面对「在白天用石剑抓一只在水边草旁的猪」这样一个既需要长时序推理,又需要推理行动过程中在开放世界感知大量信息的任务,智能体应该如何去规划,感知,行动来完成呢?多模态大模型(MLLM)与主动感知在开放世界中携手是一个有效的解决方案!
来自上海人工智能实验室,港中深,北京航空航天大学,清华大学等机构的研究者们提出的能够主动感知自身需要的环境信息,并以此来进行情景规划和行动的通才 AI 智能体 MP5(Parser,Percipient,Planner,Performer,Patroller 组成的智能体系统)。
不但可以在《我的世界》中完成一些长时序的任务(例如「挖钻石」),也可以完成需要感知大量环境信息的任务(例如「白天在水旁有草的位置附近找到一头猪」),甚至可以完成一些既是长时序,又需要感知复杂环境信息的任务(例如「晚上在水底用木铲挖沙子」)。
该研究在向通用人工智能(AGI)方向的感知和情景规划层面迈出了重要一步。通用人工智能(AGI)研究的目标是发展智能体能够在开放世界环境中像人一样的进行感知、理解、和交互。AGI 的研究可以为机器人和自动驾驶等产业带来巨大的突破和进步,推动人工智能技术在产业落地方面取得更大发展。
MP5 可以鲁棒地完成长时序推理任务和复杂环境场景理解的任务,在可以以 22% 的成功率完成钻石级别难度(智能体需要进行大量的推理)的长时序任务的基础上,可以以 91% 的准确率感知任务需要的复杂环境信息(智能体需要感知 4~6 种关键感知信息),而且仅仅只需要利用智能体第一人称视角的 RGB 图像!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。