赞
踩
如这两天在微博上所说,除了已经在七月官网上线的AIGC模特生成系统外,我正在并行带多个项目组
这些项目只要不断推进 可以做的很大,且最终大家能做出结果,不断实践、不断尝试是第一关键,至于能力是在这个过程中不断提高的,毕竟过程中有的是提高机会
而对于本文要讲的Agent,其实去年4月份随着Auto-GPT的爆火(其中最基础的组件之一便是ReAct),便带动AI Agent越来越火了,自此
在我看来,太过看好、和太过不看好,都有失偏颇,真正不失偏颇的看法是,既认识到其威力,也认识到其局限才是严谨客观的态度,本文便在这种态度之下诞生
ReAct其实不是刚出来的概念,它于2022年10月份便由Google Research 的 Brain Team 通过此篇论文《ReAct: Synergizing Reasoning and Acting in Language Models》提出来了,没错,又是Google的建设性工作之一,曾一度感觉,没有Google(毕竟Transformer、指令微调、CoT等哪个不是Google的杰作,包括RLHF也是Google deepmind和OpenAI联合推出来的),就没有后来的ChatGPT,^_^
简而言之,ReAct = Reasoning(协同推理) + Acting(行动),但具体怎么理解这个ReAct呢,比如针对以下两个示例
所以,在设计Agent的时候,需要设计好prompt,其包含几个元素:
自此,你有没发现,再加上根据观察得到的结果反馈之后,不就是强化学习那一套么?不过,谁说不是呢,之所以称之为智能体,就是希望其有根据观察结果具备下一步应该怎么做的推理 + 思考能力,这不也是RL的目标么(关于什么是RL,参见:强化学习极简入门,当然,RL中,这个奖励函数的制定并不容易)
Auto-GPT 便是参考了当前的框架,从而表现的非常出色。在未来如果 LLM 要成为 AGI,也许这个框架是一个基础的行动框架,而如果需要在机器人或者复杂的虚拟环境中使用 GPT 来做为大脑,让它自己思考、生成行动、获取执行后的结果、再次思考并计划下一步这样的路径必不可少
考虑一个智能体与环境交互以解决任务的一般设置
然而,由于语言空间是无限的,在这个增强的动作空间中学习变得困难且需要具备深厚的语言先验知识(as the language space L is unlimited, learning in this augmented action space is difficult and requires strong language priors)
本文主要关注一个冻结的大型语言模型PaLM-540B,该模型利用有限上下文示例生成特定领域任务所需的动作和自由形式表达思想(1d/2b)
In this paper, we mainly focus on the setup where a frozen large language model, PaLM-540B (Chowdhery et al., 2022)1, is prompted with few-shot in-context examples to generate both domain-specific actions and free-form language thoughts for task solving(Figure 1 (1d), (2b)).
每个上下文中的例子都是人类在解决任务实例时所采取的行动、思考和环境观察轨迹(Each in-context example is a human trajectory of actions, thoughts, and environment observations to solve a task instance (see Appendix C))
由于决策制定和推理能力集成到一个大型语言模型中,ReAct具有以下特点:
考虑两个具有挑战性的知识检索和推理数据集:
我们设计了一个简单的维基百科Web API,具有三种类型的操作,以支持交互式信息检索:
ReAct提示:对于HotpotQA和Fever,我们从训练集中随机选择6和3个案例2,并手动组成ReAct格式轨迹,以作为提示的少量样本,类似于下图(1d)
每个轨迹由多个思考-行动-观察步骤(即密集思考)组成,其中自由形式的思考用于各种目的
具体来说,我们使用一组思考来分解问题(“我需要搜索x,找到y,然后找到z”),从维基百科观察中提取信息(“x始于1844年”,“该段落未提到x”),执行常识(“x不是y,所以z必须是...”)或算术推理(“1844<1989”),指导搜索重构(“也许我可以搜索/查找x”),并综合最终答案(“...所以答案是x”)
基线:我们系统地削弱ReAct轨迹,构建多个基线的提示(格式如上图1a-1c):
而ReAct所展示的问题解决过程更加事实和基础,而CoT在制定推理结构方面更加准确,但容易受到虚构的事实或思想的影响。因此,建议将ReAct和CoT-SC结合起来,并让模型根据实际情况决定何时切换到其他方法:
总之,ReAct + CoT-SC对促进LLMs效果最佳,在HotpotQA和Fever上,最佳的提示方法分别为ReAct → CoT-SC和CoT-SC → ReAct
此外,图2(即上图右侧部分)显示了不同方法在使用不同数量的CoT-SC样本时的表现。虽然两种ReAct + CoT-SC方法在各自的任务中具有优势,但它们都显著并一致地优于CoT-SC,跨越不同数量的样本,仅使用3-5个样本即可达到CoT-SC的性能。这些结果表明,合理地结合模型内部知识和外部知识对于推理任务至关重要
Due to the challenge of manually annotating reasoning traces and actions at scale,we consider a bootstraping approach similar to Zelikman et al. (2022)
using 3,000 trajectorieswith correct answers generated by ReAct (also for other baselines) to finetune smaller language models (PaLM-8/62B) to decode trajectories (all thoughts, actions, observations) conditioned on input questions/claims
下图显示了四种方法(标准、CoT、Act、ReAct)在HotpotQA上提示/微调的扩展效果,其中,ReAct在微调中表现最佳
我们还在两个基于语言的交互式决策任务ALFWorld和WebShop上测试了ReAct,这两个任务都具有复杂的环境,需要智能体在长时间内进行行动和探索,以获得稀疏的奖励,因此需要推理来有效地行动和探索
ALFWorld:是一个合成的基于文本的游戏,旨在与具体化的ALFRED基准相一致。它包括6种类型的任务,智能体需要通过文本操作(例如,去到咖啡桌1,取走纸2,使用桌灯1)导航和与模拟家庭进行交互,以实现高级目标(例如,在桌灯下检查纸)
为了促使ReAct,我们随机注释了每个任务类型的三条轨迹,其中每个轨迹包括稀疏的思考,其中
按照Shridhar等人的方法,作者在特定于任务的设置中评估134个未见过的评估游戏。为了提高鲁棒性,通过注释的3个轨迹的每个排列构造了每个任务类型的6个提示
WebShop:ReAct也可以与嘈杂的现实语言环境进行互动,以用于实际应用吗?
我们调查了WebShop(Yao等人,2022),这是一个最近提出的在线购物网站环境,拥有1.18M个真实世界的产品和12k个人类指令
我们与使用1,012个人类注释的轨迹进行训练的模仿学习IL方法进行比较,以及使用10,587个训练指令进行训练的模仿+强化学习(IL + RL)方法
结果显示,ReAct在ALFWorld(上图表3)和Webshop(上图表4)上的表现均优于Act
待更..
//..
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。