赞
踩
关于方法的结论
作者在两个数据集上进行了实验WikiText-103(比较小的数据集),CC100
发现不管外推还是不外推都比sinusoidal的性能好。
CC100
在CC100 数据集上进行训练,在不外推的时候性能和Sinusoidal差不多,这个结论和图4的结论有一些冲突。作者在这里解释的是:Alibi对于低资源语言提供了额外的好处。
之后作者换了一个模型在CC100上进行训练并且观察了结果
在L=512的时候,当测试1024的时候模型的ppl最低。L=1024的时候在测试2048的时候ppl最低。
这里给出了解释
主要是得出来ppl下降是减缓了early token curse的作用
early token curse
假设为什么会外推
所以作者使用sliding window进行评估
从这里可以发现,ppl比较平稳,所以假设二成立
未来可以做的方向:
如何更好的利用更长的前文。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。