赞
踩
论文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
⭐⭐⭐⭐⭐
NeurIPS 2022, Google Research
这篇文章提出了思维链(Chain-of-Thought,CoT)的提示策略,也就是引导 LLM 来生成一系列中间推理过程来得到最终答案。
下图是使用 CoT 的示例:
左图没有使用 CoT,右图使用了 CoT,具体的使用方法其实就是,在 in-context learning 的所给的 QA 示例中,answer 不只是一个答案,还包括了产生这个最终答案的中间推理过程,这样,模型就学会了在回答时也产生类似的推理思路,从而得到最终的问题答案。
这个示例就展示了:当输入给 LLM 的问题示例中加入 COT 推理过程,那 LLM 也可以产生 COT 推理。这就是使用思维链来提示模型的具体使用方法。
论文总结了 CoT 的几个有趣的特性:
这篇论文有一大部分篇幅都是在介绍如何通过实验来作证 CoT 方法的有效性。论文主要做了三个实验:Arithmetic Reasoning(数学推理)、Commonsense Reasoning(常识推理)、Symbolic Reasoning(符号推理),下面分别介绍这三个实验中值得关注的地方。
三个实验差不多,所以我们重点关注一下第一个实验。
论文首先介绍了实验的设置,包括采用的数据集、prompt 的设计、采用的模型、采样策略等等:
按照以上设置便开始进行实验:
上面这张图:
从这个实验中,论文得出了如下几个小结论:
同时还对 LLM 的解答情况进行了分析,发现 LLM 的推导过程往往都是正确的(仅有个别推导错了却蒙对了最后答案),而那些最后答案错了的,也是 model 在思维推导过程中出现了小错误或者落掉了步骤。所以说 CoT prompting 是有用的。
另外,发现大的模型能够修复小的模型在思维推导过程中的错误,这也解释了为什么 CoT 在大的模型上才能发挥出作用,因为小的模型很容易在推导过程中产生错误。
论文还做了一些消融实验:
...
)。这个实验的目的是测试是否是因为 CoT 让 model 有了更多的计算资源才解决了难题。消融实验的结果如下:
可以看出,xxx-only 都与普通的 prompt 表现相当,远远不及 CoT 的表现,从而佐证 CoT 的思想才是让模型表现优异的原因。
之后,实验又证明了 CoT 方法对于不同思维链的写作风格、不同示例、不同示例的输入顺序、示例的不同数量、不同的语言模型有着鲁棒性,不会因为这些变量的变动会大大影响 CoT 的效果。做这个实验的原因是,对于 prompt 方法来说,对样本的敏感性是很重要的。因为很多 prompt 方法对适用场景十分挑剔。
实验设置与之前基本一样,将数据集更换为 CSQA 等数据集。
这个实验证明了 CoT 能够大大提升模型在常识推理任务上的表现。
符号推理尽管对于人来说往往很简单,但对于机器却有很大的挑战。这里使用了两个 toy tasks 来测试模型:
Amy Brown
,需要输出各个单词的尾字母的拼接结果 yn
另外,测试还分成了 in-domain 测试和 out-of-domain(OOD)测试,两种测试区分如下:
实验结果如下:
可以看出,OOD 整体表现不如 in-domain 的测试,有了 CoT 的加持也比 standard prompt 效果更好,而且这种效果提升在尺寸较大的模型上表现更好。
CoT 的提出,主要是受以下两个研究方向启发:
具体相关工作可以参考原论文。
可以说,CoT 通过在 prompt 中加入思维链推导过程,实现了在不需要对 LLM 做任何训练的前提下,明显提高了 LLM 在解决复杂推理问题时的表现,同时拓宽了语言模型所能够解决的推理问题的范围。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。