赞
踩
Paper name
Are Emergent Abilities of Large Language Models a Mirage?
Paper Reading Note
Paper URL: https://arxiv.org/pdf/2304.15004.pdf
Video URL: https://www.youtube.com/watch?v=hZspGdApDIo
neural scaling laws:经验观察,深度网络在测试损失中表现出是训练数据集大小、参数数量(模型大小)或计算的幂律缩放函数
其中 N 是模型参数量,c>0,
α
<
0
\alpha<0
α<0 ,如上图 A 所示
写成 per-token 交叉熵的形式
实际上替换了经验观察到的 token v * 的 one-hot 分布,将上式转换为
然后具有 N 个参数的模型具有选择正确 token 的 per-token 概率,如上图 B 所示- 假设研究人员选择一个需要正确选择长度为 L 的 token 序列的评价指标(例如,我们的任务可能是 L 位整数加法,当且仅当所有 L 个输出数字与没有添加、删除或替换的所有目标数字完全匹配时,模型的输出才会被评为准确)。如果 token 正确的概率与其他预测 token 无关,则模型正确输出所有 L 个 token 的概率为
这种度量的选择随着 token 序列长度的增加而非线性缩放性能,在绘制线性对数图上较长序列的性能时,可以看到一个尖锐、不可预测的涌现能力,如上图 C 所示
如果换成 Token Edit Distance 这样的近似线性度量,per-token 错误率在目标长度上以准线性缩放,如上图 E
如果使用不连续的评估指标,比如 Multiple Choice Grade,也可以看到涌现能力,如上图 D。二如果换成类似 Brier Score 之类的连续评估指标,就不会有涌现现象,如上图 F
【总结】涌现现象的解释
下图从左到右分别是
下图上面的是非线性的 accuracy 评价指标,有涌现现象,如果使用线性的 Token Edit Distance ,则随着模型参数增加性能是平滑可预测的提升
使用更多的评测数据使得性能变化是平滑、连续和可预测的。即便是在非线性的 accuracy 指标下,涌现现象也消失了
在全连接网络、卷积网络、自注意网络上诱导涌现能力,主要关注视觉任务(之前视觉任务很少关注到涌现现象)
改变评价指标可以在 MNIST 上复现涌现能力,实验模型是 LeNet,评价指标重新定义为 subset accuracy:K 个测试数据都需要预测正确才算对
在非线性 autoencoders 上的实验,重建指标改为
R
e
c
o
n
s
t
r
u
c
t
i
o
n
c
Reconstruction_{c}
Reconstructionc 后有涌现现象
该指标卡了阈值造成了指标不连续,需要误差小于 c 才算正确
autoregressive transformers 上的诱导涌现能力实验,在 MMLU 数据集上做的,自回归分类 Omniglot 手写数字。指标重新定义为正确分类序列中的所有图像就会展现涌现能力
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。