赞
踩
长期以来,自主代理一直是学术界和工业界的一个突出研究重点。该领域的先前研究通常集中在孤立环境中训练知识有限的代理,这与人类的学习过程有很大不同,因此代理难以实现类似人类的决策。最近,通过获取大量的网络知识,大型语言模型(LLM)在实现人类水平的智能方面显示出显着的潜力。这引发了基于LLM的自主代理的研究热潮。本文将通过NIPS2023录用的22篇相关论文来速览大语言模型智能体的最新研究进展。
本文的分类体系参考于我们在 8月23日完成的大语言模型自主智能体领域的第一篇Survey:A Survey on Large Language Model based Autonomous Agents。我们在9月7日对该综述进行更新和扩展,从智能体的构建,应用和评测等维度对过往工作进行总结梳理,并提出自己的观点,对该领域的发展进行了展望。同时,我们也维护了一个仓库,全面地总结分析了百余篇大语言模型智能体相关论文:LLM-Agent-Survey。
另外,我们也额外维护了一个仓库:LLM-Agent-Paper-Digest, 用来长期实时总结跟进各大顶会接收的大语言模型智能体相关论文。
Survey: https://arxiv.org/abs/2308.11432
LLM-Agent-Survey: https://github.com/Paitesanshi/LLM-Agent-Survey
LLM-Agent-Paper-Digest: https://github.com/XueyangFeng/LLM-Agent-Paper-Digest
Paper: https://arxiv.org/abs/2303.17760
Code: https://github.com/camel-ai/camel
TLDR: 本文介绍了CAMEL,一个促进交流代理之间自主合作的框架。该框架采用角色扮演的方法,在聊天代理执行任务时使用“开始提示”来引导聊天代理,使其与人类的意图保持一致。采用两个 Agent,每个 Agent 都有自己的个性,并让他们相互交谈,来让两个 Agent 以协作的方式相互交流想法,来完成用户指定的任务(通过角色扮演提高Agent能力)。
Paper: https://arxiv.org/abs/2303.11366
Code: https://github.com/noahshinn024/reflexion
TLDR: Reflexion将任务的反馈信号保存在长期和短期记忆缓冲器中,以便在后续试验中做出更好的决策 (利用长短期记忆维护反馈并进行反思) 。
Paper: https://arxiv.org/abs/2305.17390
Code: https://github.com/yuchenlin/SwiftSage
TLDR: 本文介绍了一种名为SwiftSage的新型代理框架,它将快速直观的思维模块Swift与深思熟虑的思维模块 Sage相结合,以优化复杂交互推理任务中的行动规划。Swift是一个微调的小型编码器-解码器LM,而 Sage则采用 GPT-4 等 LLM 进行子目标规划和接地 (结合小模型快速思考和大模型深思熟虑) 。
Paper: https://arxiv.org/abs/2306.07929
Code: https://github.com/noahshinn024/reflexion
TLDR:本文提出了Remember,为 LLM 配备长期经验记忆,能够利用过去的经验,即使是针对不同的任务目标 (为LLM配备长期经验记忆,构建一个半参数化的强化学习agent)。
Paper: https://arxiv.org/abs/2302.01560
Code: https://github.com/CraftJarvis/MC-Planner
TLDR: 在具身环境中(MineCraft),构建了LLM 驱动的智能体。智能体可以通过反馈更好地纠错,同时引入目标选择器,根据预测的完成步骤对规划进行排序和改进。(引入了任务选择器,实现了MineCraft中的多任务代理)
Paper: https://arxiv.org/abs/2305.14078
TLDR: 利用大型语言模型(LLMs)作为常识世界模型和启发式策略来解决复杂任务规划问题。
Paper: https://arxiv.org/abs/2305.10601
Code: https://github.com/ysymyth/tree-of-thought-llm
TLDR: 我们介绍了一种新的语言模型推理框架--"思想树"(ToT),它概括了流行的 "思想链"(Chain of Thought)方法,用于提示语言模型,并能够探索作为解决问题中间步骤的连贯文本单元("思想")。(鼓励大模型考虑多个不同的推理路径)
Paper: https://arxiv.org/abs/2305.14909
Code: https://github.com/GuanSuns/LLMs-World-Models-for-Planning
TLDR: 首先使用 GPT-4 生成高质量的 PDDL 模型,然后使用自然语言反馈纠正 PDDL 模型,最后利用提取的域模型以多种方式可靠地规划。(大模型+外部规划器)
Paper: https://arxiv.org/abs/2210.03821v2
TLDR: 这项工作中提出了一种名为 ICPI 的算法,它可以在没有专家示范或梯度的情况下执行 RL 任务。本文提出了一种策略迭代方法,其中prompt是整个学习的核心。ICPI 通过与 RL 环境的试错互动,迭代更新prompt内容。(LLM作为model-base强化学习的world-model和policy)
Paper: https://arxiv.org/abs/2305.18752
Code: https://github.com/AILab-CVC/GPT4Tools
TLDR: 本文提出了基于self-Instruction的 GPT4Tools,使 LLaMA 和 OPT 等开源 LLM 能够使用工具。它通过向gpt提示各种多模态情境,生成指令遵循数据集,再微调开源LLM,使LLM可以具备使用工具的能力(用gpt生成工具使用记录,再用LoRA微调开源模型) 。
Paper: https://arxiv.org/abs/2306.08129v2
TLDR: AVIS 是一个自主视觉信息搜索系统,它利用大型语言模型(LLM)动态地制定利用外部工具的战略,并调查其输出结果,从而获取必要的知识,为所提问题提供答案。AVIS 在知识密集型视觉问题解答基准(如 Infoseek 和 OK-VQA)上取得了最先进的结果 (LLM动态制定使用外部工具的策略,从而获取视觉信息查询问题所需的必要知识)。
Paper: https://arxiv.org/abs/2306.04746
TLDR: 本文提出了一种新算法,用于将 LLM 的输出结果用于下游统计分析,同时保证统计特性(如渐近无偏性和适当的不确定性量化),这对社会计算科学的研究至关重要。(用LLM的输出进行社会科学的文档标签的下游统计分析)
TLDR: 论文暂未公开.
Paper: https://arxiv.org/abs/2305.03403
Code: https://github.com/automl/CAAFE
TLDR: 本文介绍了一种名为 CAAFE 的方法,该方法利用大型语言模型对表格数据集进行特征工程。CAAFE 基于数据集描述迭代生成有语义意义的特征,并对所生成的特征进行解释。这种方法提高了多个数据集的性能 (LLM自动优化特征工程)。
Paper: https://arxiv.org/abs/2305.19308
Code: https://sheetcopilot-demo.github.io/
TLDR: 本文介绍了使用大型语言模型的代理 SheetCopilot,该代理可通过自然语言与电子表格进行交互。它能将复杂的请求转化为可操作的步骤,在各种任务中的表现优于传统的编程方法 (Agent和电子表格交互)。
Paper: https://arxiv.org/abs/2305.12476
TLDR: 本文提出了一种新颖的零样本 VRD 方法:RECODE,它通过复合谓词表提示解决关联检测问题。具体来说,RECODE 首先将每个谓词类别分解为主语、宾语和空间成分。然后,它利用大型语言模型 (LLM) 为每个组件生成基于描述的提示(或视觉提示)(通过LLM给出的复合视觉线索进行零样本视觉关系检测)。
Paper: https://arxiv.org/abs/2307.12981
Code: https://vis-www.cs.umass.edu/3dllm/
TLDR: 我们建议将三维世界注入大型语言模型,并引入全新的三维语言模型(3D-LLM)系列。具体来说,3D-LLMs 可以将 3D 点云及其特征作为输入,并执行各种 3D 相关任务,包括字幕、密集字幕、3D 问题解答、任务分解、3D 落地、3D 辅助对话、导航等(将3D世界注入到LLM中)。
TLDR: Awaiting publication.
Paper: https://arxiv.org/abs/2305.15269
TLDR: 为了衡量 LLM 的一般演绎推理能力,本文测试了一系列广泛的演绎规则,并从深度、广度和组成泛化等多个角度衡量了它们从较简单的演示泛化到更复杂的证明的能力。为了促进系统性探索,本文构建了一个新的合成和可编程推理数据集,可以控制演绎规则和证明的复杂性。我们对四个不同大小和训练目标llm的实验表明,它们能够推广到更长和组合的证明。然而,它们需要明确的演示来产生假设的子证明,特别是在案例证明和矛盾证明的情况下。(使用OOD示例评估LLM的推理能力)。
Paper: https://arxiv.org/abs/2309.15129
TLDR: 本文提出了 CogEval,这是一个受认知科学启发的大型语言模型测量和评估协议。其次,本文使用 CogEval 系统地评估了一些大型语言模型的假设潜在能力--认知图谱和规划能力,使用的任务具有已确立的建构效度,且不在大型语言模型训练集中。本文发现,虽然 LLMs 在一些图形较小的任务中表现出了明显的能力,但有证据表明他们缺乏对潜在任务结构的真正理解。(提出一种受认知科学启发的协议CogEval用于LLM的评估)。
Paper: https://arxiv.org/abs/2302.06706
Code: https://github.com/karthikv792/LLMs-Planning
TLDR: 在本文中,我们对大型语言模型 (LLM) 的规划能力进行了批判性调查。为此,我们评估了llm在两种不同模式下的计划生成能力:自主和启发式。研究结果表明,LLM 自主生成可执行计划的能力相当有限,最佳模型 (GPT-4) 跨域的平均成功率为 ∼12%。然而,启发式模式的结果显示出更多的前景。在启发式模式下,我们证明了LLM生成的计划可以改善底层声音规划器的搜索过程,另外表明外部验证者可以帮助提供对生成的计划的反馈,并反向提示LLM以获得更好的计划生成。
Paper: https://arxiv.org/abs/2306.03438
TLDR: 本文引入并研究了buggy-code completion问题,其灵感来自实时代码建议的现实场景,在给定问题语句和具有潜在错误的部分代码的情况下完成编码程序。为了系统地研究这项任务,本文引入了两个数据集:一个是由改变语义的操作符变化产生的合成错误(buggy-HumanEval),另一个是由用户提交的编码问题产生的现实错误(buggy-FixEval)。本文发现,潜在错误的存在大大降低了高性能 Code-LLMs 的生成性能。
一起交流
想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。