赞
踩
来源 Google Brain
论文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
本文探讨了生成思想链一系列中间推理步骤如何显著提高大型语言模型执行复杂推理的能力。特别是,我们展示了这种推理能力是如何通过一种称为思维链提示的简单方法在足够大的语言模型中自然出现的,其中提供了一些思维链演示作为提示的示例。
在三个大型语言模型上的实验表明,思维链提示可以提高一系列算术、常识和符号推理任务的性能。经验上的收益可能是惊人的。例如,提示一个只有八个思维链样本的PaLM 540B在GSM8K数学单词问题基准上实现了最先进的准确性,甚至超过了带有验证器的微调GPT-3。
在本文中,我们结合了提示学习,常识推理这两种想法的优势,避免了它们的局限性。具体来说,我们探索了语言模型在给定由三元组组成的提示(〈输入,思想链,输出〉)的情况下,对推理任务执行少量提示的能力。思维链是一系列中间的自然语言推理步骤,这些步骤会导致最终的输出,我们将这种方法称为思维链提示。
如图1所示。我们对算术、常识和符号推理基准进行了实证评估,表明思维链提示优于标准提示,有时甚至达到了惊人的程度。
图2显示了GSM8K数学单词问题基准测试的一个结果,PaLM 540B的思想链提示大大优于标准提示,并实现了新的最先进性能。仅提示的方法很重要,因为它不需要大型训练数据集,而且单个模型检查点可以执行许多任务而不会失去通用性。这项工作强调了大型语言模型如何通过几个带有任务自然语言数据的例子进行学习。
本文的目标是赋予语言模型生成类似思想链的能力——一系列连贯的中间推理得出问题最终答案的步骤。
本文为了验证思维链进行提示的方法可以给大模型的推理能力,产生很大的提升,分别在算数推理,常识推理,符号推理上进行实验。
当与540B参数语言模型一起使用时,思想链提示在多个任务上与特定于任务的微调模型的性能相当,甚至在具有挑战性的GSM8K Benchmark 测试上达到了最新水平。
尽管思维链特别适用于数学单词问题,但思维链基于语言的性质实际上使其适用于一类广泛的常识性推理问题,这些问题涉及在一般背景知识的假设下对物理和人类互动进行推理。常识推理是与世界互动的关键,目前的自然语言理解系统仍无法进行常识推理。
我们的最终实验评估考虑了符号推理,这对人类来说很简单,但对语言模型来说可能很困难。我们发现,思维链提示不仅使语言模型能够执行在标准提示设置中具有挑战性的符号推理任务,而且有助于推理时间输入的长度泛化,比少数镜头示例中看到的更长。
最后一个字母串联。
此任务要求模型将名称中单词的最后一个字母连接起来(例如,“Amy Brown”→ “yn”)。这是首字母串联的一个更具挑战性的版本,语言模型已经可以在没有思想链的情况下执行。3我们通过从人口普查数据中随机串联前一千个名字中的名字来生成全名。
硬币翻转。
这项任务要求模型回答在人们翻转或不翻转硬币后,硬币是否仍然朝上(例如,“硬币是朝上的。菲比翻转硬币。奥斯瓦尔多没有翻转硬币。硬币仍然朝上吗?”→ “否”)。
我们已经探索了思维链提示作为一种在大型语言模型中引发多步骤推理行为的简单机制。
我们首先看到,思维链提示在算术推理方面大大提高了性能,产生了比消融更强的改进,并且对不同的注释器、示例和语言模型都很鲁棒。关于常识推理的实验强调了思维链推理的语言性质是如何使其普遍适用的。最后,我们表明,对于符号推理,思想链提示有助于OOD泛化到更长的序列长度。
我们已经探索了思维链提示作为一种简单且广泛适用的方法来增强语言模型中的推理。通过对算术、符号和常识推理的实验,我们发现思维链推理是模型尺度的一种新兴性质,它允许足够大的语言模型执行具有平坦尺度曲线的推理任务。拓宽语言模型可以执行的推理任务的范围,有望激励人们进一步研究基于语言的推理方法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。