赞
踩
本文约1000字,建议阅读5分钟今天一起来研究下LLM中的emergent abilities现象。
大家好,这里是NewBeeNLP。
论文名称:Emergent Abilities of Large Language Models
论文链接:
https://arxiv.org/pdf/2206.07682.pdf
论文来源:Google&Deepmind
本文中对LLM的emergent abilities的定义为:
在较小的模型中不出现,而在较大的模型中出现的能力,则可以称之为emergent.(An ability is emergent if it is not present in smaller models but is present in larger models.)
本文的目的不是去谈论是否存在一个scale就可以观察到emerge abilities,而是去讨论之前的工作中出现的emergent现象。
本部分主要讨论在prompting范式下的emergent abilities, 该范式如下图所示:
few-shot prompting的emergent主要体现为模型在没有达到一定规模前,得到的表现较为随机,在突破规模的临界点后,表现大幅度提升。如下图所示,在BIG-Bench上,GPT-3和LaMDA在未达到临界点时,模型的表现都是接近于零。而在GPT-3的规模突破2·10^22 training FLOPs (13B参数),LaMDA的规模突破10^23 training FLOPs (68B参数),模型的表现开始快速上升。
除了few-shot prompting可以反映emergent abilities, 作者认为如果在某个任务上的某个手段,模型达到一定规模以前,使用该手段,相比于基线没有提升或者是有害的,那么可以将该手段看成emergent ability。
作者在Multi-step reasoning(chain-of-thought prompting); Instruction following(使用instructions描述任务,不使用few-shot exemplars); Program execution;Model calibration(calibration需要模型去评估自己是否能正确回答某个问题)
下表给出了大模型出现emergent ablities的规模统计
对于模型突破某个规模的临界值后,出现emergent abilities的现象。作者给出直观上的猜想,某个multi-step reasoning任务需要l个step的计算,那么可能需要模型主要需要O(l)层的数目。同时也可以很自然猜想更多的参数和更多的训练有助于模型记忆更多的world knowledge. 比如在closed-book question-answering可能需要模型有更多的参数去记忆尝试知识。
衡量emergent abilities的evaluation metrics也值得探究。仅仅使用最终的指标如acc等并不一定很好反映emergence.
虽然本文主要探究模型超过一定规模后出现emergent ability, 但模型仍然有可能通过数据,算法的改进在更小规模出现emergence. 比如在BIG-Bench任务上,LaMDA在137B,GPT-3在175B上出现emergent ability,而PaLM在62B就可以出现。
虽然模型的规模与大模型的表现高度相关,但是但模型的规模不是观察到emergent abilities的唯一尺度。如下图所示,模型的emergent abilities可以看成一系列相关变量的函数。
作者为未来研究大模型中的emergent abilitie提供了一些方向。
Further model scaling: 继续增加模型的规模探究模型的表现的提升。
Improved model architectures and training :从模型的结构和训练过程上提高模型的质量,从而使模型在较低的训练成本下就可以获得emergent abilities。
Data scaling: 增大数据集的规模。
Better techniques for and understanding of prompting:更好地发挥prompt在模型中的作用。
Frontier tasks: 仍然有些任务无法出现emerent abilities,这也是值得探究的。
Understanding emergence: 关于emergent abilities为什么会在语言模型中发生仍然是未知的。
编辑:王菁
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。