赞
踩
虽然CoT作为一种prompt形式在提高LLM的表现上有很好的效果,但此前有研究表明CoT并不能在小规模的LM(参数<60B)上达到较好的效果,而作者却通过蒸馏的方式将大模型的CoT知识传授给小模型,从而让OPT-1.3B这样的模型也获得了CoT能力。
对于一个训练样本
x
x
x,作者将其作为输入给到LLM,用few-shot-CoT的方式令其输出答案
y
y
y和rationale
z
z
z,注意作者并不是让LLM输出一个就了事,而是让其输出了多组进行采样,最后一个
x
x
x可以对应30个
(
y
,
z
)
(y,z)
(y,z)的组合。同时这里的
y
y
y并不一定是对的,作者设了有gold label和无gold label两个baseline。下表展示了蒸馏后的结果,可以看到提升非常明显,full因为提供了golden label因此表现更好。
作者发现这种一个问题多个rationale的数据蒸馏使得学生模型的效果变得更好,取样数从1到30的过程中有明显提升,如下图所示。
不过我认为这个实验有不太严谨的地方,作者没有说在缩减单个样本的rationale采样数的时候有没有维持整个蒸馏数据集的大小不变,如果是直接把数据集规模缩减到1/30,那有可能不是一个样本只有一个rationale的问题,而是蒸馏数据集大大缩水的问题。后面作者补充了一个实验,可以看到应该是没有保证总的数据集大小不变的,1x和30x的曲线差了30倍的蒸馏数据量,有gap也很正常,不一定是一个sample+多个rationale的影响。
之后还有一些别的对蒸馏数据集改动的实验,此处略。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。