当前位置:   article > 正文

[ACL2023] Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step

symbolic chain-of-thought distillation: small models can also “think” step

Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step

文章链接

虽然CoT作为一种prompt形式在提高LLM的表现上有很好的效果,但此前有研究表明CoT并不能在小规模的LM(参数<60B)上达到较好的效果,而作者却通过蒸馏的方式将大模型的CoT知识传授给小模型,从而让OPT-1.3B这样的模型也获得了CoT能力。

在这里插入图片描述
对于一个训练样本 x x x,作者将其作为输入给到LLM,用few-shot-CoT的方式令其输出答案 y y y和rationale z z z,注意作者并不是让LLM输出一个就了事,而是让其输出了多组进行采样,最后一个 x x x可以对应30个 ( y , z ) (y,z) (y,z)的组合。同时这里的 y y y并不一定是对的,作者设了有gold label和无gold label两个baseline。下表展示了蒸馏后的结果,可以看到提升非常明显,full因为提供了golden label因此表现更好。
在这里插入图片描述
作者发现这种一个问题多个rationale的数据蒸馏使得学生模型的效果变得更好,取样数从1到30的过程中有明显提升,如下图所示。
在这里插入图片描述
不过我认为这个实验有不太严谨的地方,作者没有说在缩减单个样本的rationale采样数的时候有没有维持整个蒸馏数据集的大小不变,如果是直接把数据集规模缩减到1/30,那有可能不是一个样本只有一个rationale的问题,而是蒸馏数据集大大缩水的问题。后面作者补充了一个实验,可以看到应该是没有保证总的数据集大小不变的,1x和30x的曲线差了30倍的蒸馏数据量,有gap也很正常,不一定是一个sample+多个rationale的影响。
在这里插入图片描述
之后还有一些别的对蒸馏数据集改动的实验,此处略。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/388891
推荐阅读
相关标签
  

闽ICP备14008679号