赞
踩
下面为笔者最近看的一些prompt technique领域的新兴论文以及对应的总结,分享给大家一起学习。
持续更新中…
链接:https://arxiv.org/pdf/2201.11903.pdf
时间:2022
摘要:我们探讨了如何生成一系列中间推理步骤,即思维链,如何显著提高大型语言模型执行复杂推理的能力。特别地,我们展示了这种推理能力如何在足够大的语言模型中自然地出现,通过一种简单的方法称为思维链提示,在提示中提供几个思维链演示作为示例。对三个大型语言模型的实验表明,思维链提示提高了算术、常识和符号推理任务的性能。实证收益可能非常显著。例如,仅使用八个思维链示例提示一个具有540B参数的语言模型,在数学单词问题的GSM8K基准测试上实现了最先进的准确性,甚至超过了带有验证器的微调GPT-3。
关键词:Chain-of-Thought Prompting, reasoning, large language models, arithmetic, commonsense, symbolic reasoning, state of the art accuracy
关键见解:
经验教训:
相关建议:
摘要:预训练的大型语言模型(LLMs)广泛应用于自然语言处理(NLP)的许多子领域,并通常被认为是具有任务特定示例的出色的少量样本学习者。值得注意的是,最近一种通过逐步回答示例来引出复杂的多步推理的技术——思维链(CoT)提示,在算术和符号推理方面取得了最先进的表现,这些是不遵循LLMs标准缩放定律的困难系统2任务。虽然这些成功通常归因于LLMs的少量样本学习能力,但我们表明,通过在每个答案前简单地添加“让我们逐步思考”,LLMs是不错的零-shot推理器。实验结果表明,我们的零-shot-CoT,在使用相同的单个提示模板的情况下,显着优于各种基准推理任务上的零-shot LLM表现,包括算术(MultiArith,GSM8K,AQUA-RAT,SVAMP),符号推理(Last Letter,Coin Flip)和其他逻辑推理任务(Date Understanding,Tracking Shuffled Objects),没有任何手工制作的少量样本示例,例如使用大型InstructGPT模型(text-davinci-002)将MultiArith的准确性从17.7%提高到78.7%,将GSM8K从10.4%提高到40.7%,以及使用另一个现成的大型模型,540B参数PaLM,类似幅度的改进。这个单个提示的多样性涵盖了非常不同的推理任务,暗示了LLMs未被开发和研究的基本零-shot能力,表明高水平的多任务广泛认知能力可以通过简单的提示提取。我们希望我们的工作不仅作为具有挑战性的推理基准测试的最小最强零-shot基线,而且强调在制定微调数据集或少量样本示例之前,仔细探索和分析隐藏在LLMs中的巨大零-shot知识的重要性。
关键词:Large Language Models, zero-shot reasoners, chain of thought prompting, few-shot learning, arithmetics, symbolic reasoning, logical reasoning, multi-task broad cognitive capabilities, prompting, finetuning datasets.
关键见解:
Benchmark
经验教训:
相关建议:
相关论文:
[1] OPT: Open Pre-trained Transformer Language Models
[2] PaLM: Scaling Language Modeling with Pathways
[3] Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
[4] STaR: Bootstrapping Reasoning With Reasoning
[5] Self-Consistency Improves Chain of Thought Reasoning in Language Models
[6] Training language models to follow instructions with human feedback
[7] Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
[8] Chain of Thought Prompting Elicits Reasoning in Large Language Models
[10] LaMDA: Language Models for Dialog Applications
链接:https://arxiv.org/abs/2210.03629
摘要:尽管大型语言模型(LLMs)在语言理解和交互式决策方面展示了令人印象深刻的能力,但它们的推理能力(例如思维链提示)和行动能力(例如行动计划生成)主要被研究为单独的主题。在本文中,我们探讨了使用LLMs以交错方式生成推理追踪和任务特定行动的方法,从而允许更大的协同作用:推理追踪帮助模型诱导、跟踪和更新行动计划以及处理异常情况,而行动则允许其与外部来源(例如知识库或环境)进行接口,以收集额外的信息。我们将我们的方法命名为ReAct,并将其应用于各种语言和决策任务,并展示其相对于最先进的基线方法的有效性,以及相对于没有推理或行动组件的方法的改进的人类可解释性和可信度。具体而言,在问答(HotpotQA)和事实验证(Fever)方面,ReAct通过与简单的维基百科API交互,克服了思维链推理中普遍存在的幻觉和错误传播问题,并生成了更可解释的人类任务解决轨迹。在两个交互式决策基准测试(ALFWorld和WebShop)中,ReAct分别比模仿和强化学习方法的绝对成功率高出34%和10%,同时仅提示一个或两个上下文示例。项目网站和代码:https://react-lm.github.io
关键词:large language models, reasoning, acting, task-specific actions, human interpretability, trustworthiness, interactive decision making
关键见解:
经验教训:
相关建议:
链接:https://arxiv.org/abs/2207.05608
摘要:最近的研究表明,大型语言模型(LLMs)的推理能力可以应用于自然语言处理之外的领域,例如机器人的规划和交互。这些具身化问题要求代理人理解世界的许多语义方面:可用的技能库,这些技能如何影响世界,以及对世界的更改如何映射回语言。在具身化环境中进行规划的LLMs不仅需要考虑要做什么技能,还需要考虑如何以及何时进行这些技能——这些答案随着代理人自己的选择而随时间变化。在这项工作中,我们调查了LLMs在这种具身化环境中使用自然语言提供的反馈来源能够推理的程度,而无需进行任何额外的训练。我们提出,通过利用环境反馈,LLMs能够形成内部独白,使它们能够更丰富地处理和规划机器人控制场景。我们调查了各种反馈来源,例如成功检测、场景描述和人类交互。我们发现,闭环语言反馈显著提高了三个领域的高级指令完成情况,包括模拟和真实的桌面重新排列任务以及在真实世界的厨房环境中进行的长期移动操作任务。
关键词:Large Language Models, embodied reasoning, planning, natural language feedback, robotic control, instruction completion, semantic understanding.
关键见解:
经验教训:
相关建议:
链接:https://arxiv.org/abs/2304.03442
摘要:可信的人类行为代理可以为各种交互应用提供支持,包括沉浸式环境、人际交流排练空间和原型工具。本文介绍了生成代理——计算机软件代理,模拟可信的人类行为。生成代理会起床、做早餐,然后去上班;艺术家会绘画,作家会写作;他们会形成观点,注意到彼此,并开始对话;他们会回忆和反思过去的日子,同时计划未来的日子。为了实现生成代理,我们描述了一种架构,扩展了一个大型语言模型,以使用自然语言存储代理的完整经历记录,随着时间的推移,将这些记忆综合成更高层次的反思,并动态检索它们以规划行为。我们通过在受《模拟人生》启发的交互式沙盒环境中实例化生成代理,让最终用户可以使用自然语言与二十五个代理居民互动。在评估中,这些生成代理展现出可信的个体和群体行为:例如,仅仅从一个用户指定的一个代理想要举办情人节派对的概念开始,代理们在接下来的两天里自主地传播派对的邀请,结识新朋友,相互约会参加派对,并协调好在正确的时间一起出现在派对上。我们通过消融实验证明了我们代理架构的组成部分——观察、规划和反思——对代理行为的可信度都起到了至关重要的作用。通过将大型语言模型与计算机交互代理相结合,本研究引入了用于实现可信人类行为模拟的架构和交互模式。
关键词:generative agents, believable human behavior, interactive applications, immersive environments, rehearsal spaces, prototyping tools, large language model
关键见解:
经验教训:
相关建议:
链接: https://arxiv.org/abs/2304.05376
摘要:在过去几十年中,出现了许多优秀的计算化学工具。然而,由于大多数工具学习难度较高且相互孤立,它们的全部潜力尚未得到充分发挥。最近,大型语言模型(LLMs)在各个领域的任务中表现出了强大的性能,但在处理化学相关问题时却遇到了困难。此外,这些模型缺乏对外部知识源的访问,限制了它们在科学应用中的实用性。在本研究中,我们介绍了ChemCrow,一种LLM化学代理,旨在完成有机合成、药物发现和材料设计等任务。通过整合17个专家设计的工具,ChemCrow增强了LLM在化学领域的性能,并产生了新的能力。我们的代理自主地规划了一种驱虫剂、三种有机催化剂以及其他相关分子的合成。我们的评估包括LLM和专家评估,证明了ChemCrow在自动化各种化学任务方面的有效性。令人惊讶的是,我们发现作为评估器的GPT-4无法区分明显错误的GPT-4完成和ChemCrow的性能。像ChemCrow这样的工具存在被滥用的重大风险,我们讨论了它们的潜在危害。在负责任的使用下,我们的工作不仅有助于专业化学家并降低非专业人士的门槛,还通过弥合实验和计算化学之间的差距促进科学进步。部分代码可在https://github.com/ur-whitelab/chemcrow-public上公开获取。
关键词:ChemCrow, large-language models, computational chemistry tools, organic synthesis, drug discovery, materials design, automating chemical tasks
关键见解:
经验教训:
相关建议:
链接:https://arxiv.org/abs/2304.08244
摘要:最近的研究表明,大型语言模型(LLMs)可以利用外部工具来提高其上下文处理能力,摆脱纯语言建模范式,为人工通用智能铺平道路。尽管如此,目前缺乏系统性评估来证明LLMs使用工具回应人类指令的有效性。本文介绍了API-Bank,这是专为工具增强的LLMs量身定制的第一个基准测试。API-Bank包括53个常用的API工具,一个完整的工具增强的LLM工作流程,以及264个带有注释的对话,总共包含568个API调用。这些资源旨在全面评估LLMs在规划逐步API调用、检索相关API和正确执行API调用以满足人类需求方面的能力。实验结果表明,相对于GPT3,GPT-3.5在使用工具方面具有更强的能力,而GPT-4在规划性能方面更强。然而,与人类表现相比,仍有相当大的改进空间。此外,详细的错误分析和案例研究证明了工具增强的LLMs在日常使用中的可行性,以及未来研究需要解决的主要挑战。
关键词:Large Language Models, contextual processing abilities, Artificial General Intelligence, benchmark, Tool-Augmented LLMs, API tools, annotated dialogues
关键见解:
经验教训:
相关建议:
链接:https://arxiv.org/abs/2302.04761
摘要:语言模型(LMs)展示了在规模上仅仅通过少量示例或文本指令就能解决新任务的非凡能力。然而,令人矛盾的是,它们在基本功能上却表现出困难,比如算术或事实查找,而更简单、更小的模型却擅长这些。在本文中,我们展示了LMs可以通过简单的API自学使用外部工具,并实现两者的最佳结合。我们引入了Toolformer,一个经过训练的模型,用于决定调用哪些API、何时调用它们、传递什么参数以及如何最好地将结果融入未来的标记预测中。这是以自监督的方式完成的,仅需要每个API的少量演示。我们整合了一系列工具,包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。Toolformer在各种下游任务中实现了显著改进的零样本性能,通常与更大的模型竞争,而不牺牲其核心语言建模能力。
关键词:Language models, tools, APIs, self-supervised learning, zero-shot performance, downstream tasks, language modeling abilities
关键见解:
经验教训:
相关建议:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。