当前位置:   article > 正文

GOOGLE | COT(chain of thought)开山之作,利用思维链提升复杂问题推理能力_基于思维链的大模型数学推理能力提升

基于思维链的大模型数学推理能力提升

一、概述

title:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

论文地址:https://arxiv.org/abs/2201.11903

auto COT代码【COT升级版本】:GitHub - amazon-science/auto-cot: Official implementation for "Automatic Chain of Thought Prompting in Large Language Models" (stay tuned & more will be updated)

auto COT说明:人工去编写COT耗时耗力,auto COT使用机器生成推理过程,然后拼接成COT样例组装成context送入llm,效果居然超过了manual-COT(人工设置的COT)

1.1 Motivation

  1. 探究COT(chain of thought)【一系列中间的推理步骤】如何能极大的提升大模型对复杂问题的推理能力。
  2. type1 task:随着模型scale变大,效果也逐渐提升,像文本分类,情感分类就是这样。
  3. type2 task:随着模型scale变大,效果变平flat,即效果随着增大模型没什么提升,像复杂数学问题的推理就是这种情况。
  • 左边:简单问题的推理效果随着模型增大而提高,这个时候COT比没有用COT好一丢丢
  • 右边:复杂问题推理能力效果不随着模型增大而提高,这个时候用了COT,可以带来显著的提升

1.2 Methods

  1. 通过chain-of-thought prompting【一步一步思考】来验证足够大的模型存在的推理能力涌现的情况。

COT是什么:在给出的样例中,写出更详细的推理过程

各种场景COT例子

1.3 Conclusion

  1. 在三种大型语言模型上进行的实验表明,思维链提示可以提高其在一系列算术、常识和符号推理任务上的性能。
  • 没用COT:18%解决率,用了COT:57%解决率,这提升量也太大了
  1. 收益可能是惊人的。例如一个只有8个思维链范例COT的PaLM 540B在数学单词问题的GSM8K基准测试上达到了最先进的准确性,甚至超过了finetuned后的GPT-3。
  2. 思维链推理是模型尺度的一个涌现属性【emergent property】,它允许足够大的语言模型来执行推理任务,否则就会有平坦的尺度曲线【小模型不太行】。
  3. COT(chain of thought)总结:
    1. COT原则上可以让模型执行多个中间步骤推理,可能可以给需要多个推理step的问题分配更多计算资源来解决。
    2. COT提供了可解释性
    3. COT可以解决一些常识性的问题
    4. 可以像few-shot一样,提供一些中间结果作为参考样例。

二、详细内容

1 COT是随着模型大小增加而涌现的一种能力

(1)只在100B左右的大模型上才有效果

(2):任务越难,效果越好,例如GSM8K上,GPT和PaLM用了COT比没有COT高差不多2倍。

(3):利用PaLM540B在GSM8K数据集上达到了SOTA。

2 消融实验:是哪些原因使COT效果表现不错

  • Equation only:只在给出答案前,加入了数学equation【只给数学表达式,不给自然语言描述】,验证COT是否为Equation带来的提升,图5显示不是【说明自然语言在推理过程中起到了非常重要的作用】。
  • Variable compute only:在给出答案前,加入和COT等长度的...,验证是否为COT增加token从而增加计算量带来的提升,发现和baseline也没啥变化,说明不是这个原因。
  • Chain of thought after answer:验证COT是否因为新增的prompts让LLM更能够接入相关知识而带来效果的提升,这里让COT放在答案后,发现和baseline也没啥区别,说明COT并不是因为能够接入额外知识而带来的提升,是确实因为模型学到推理带来的提升。。
  • 结论:COT确实在大模型里面能够带来推理能力的提升,而不是增加计算量,引入额外知识带来的提升。

3 鲁棒性

  • 不同人写的COT还是有一定方差,但是都比没用COT要好
  • 从训练集搞出来的examplars【训练集数据已经有step的推理过程】也验证了COT的有效性
  • 结论:用了COT等类似的方法,在复杂推理问题上,就是要比没用好

4 其他场景

  • 通用常识知识推理:CSQA:常识QA,StrategyQA:multi-hop 策略回答,Data:时间推理,Sports:运动,SayCan:指挥机器人
  • 结论:1. 模型增大,效果提升。2. COT在这些通用知识上也有一定的提升,在CSQA上提升不是特别大,其他还可以。
  • 符号推理:(1)拼接尾字母。(2):翻转硬币(推理硬币是正面还是反面)。
  • 实验方法:(1)in domain:该领域的测试数据。(2):OOD,out-of-domain的数据
  • 结论:(1)in domain的COT比没有COT好,但是要模型在62B左右才有一个比较大的效果的提升。(2):对于OOD(out-of-domain)数据,要500B才有一个比较大的提升,同时COT比没有用COT好非常多。

三、其他参考

  1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models - 知乎
  2. Chain of Thought论文、代码和资源【论文精读·43】_哔哩哔哩_bilibili
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/546913
推荐阅读
相关标签
  

闽ICP备14008679号