当前位置:   article > 正文

Alibi位置编码(论文阅读)

alibi位置编码

Alibi位置编码(论文阅读)

方法

请添加图片描述
请添加图片描述

关于方法的结论

  1. m is a head-specific slope fixed before training,m的设置具有一定普适性。同时作者也尝试了m作为一个模型的可训练参数,但是发现这样效果不好。作者做了很多探索发现m的值在(0,1)的时候比较好。原文:
    Abriefmanualexplorationofaroundtenslopesetsledustodiscoverthesetofslopes that we finally picked. Our main insight from this exploration is that the slope sets that work best are those with slopes in the (0, 1) range, with the slopes’ density increasing as we get closer to 0. We also found our method to be robust to slope choice. Even randomly sampling from the exponential distribution worked well in some cases (although that method had high variance).

实验分析

作者在两个数据集上进行了实验WikiText-103(比较小的数据集),CC100
请添加图片描述
发现不管外推还是不外推都比sinusoidal的性能好。

CC100
请添加图片描述
在CC100 数据集上进行训练,在不外推的时候性能和Sinusoidal差不多,这个结论和图4的结论有一些冲突。作者在这里解释的是:Alibi对于低资源语言提供了额外的好处。

请添加图片描述
之后作者换了一个模型在CC100上进行训练并且观察了结果
请添加图片描述
在L=512的时候,当测试1024的时候模型的ppl最低。L=1024的时候在测试2048的时候ppl最低。

这里给出了解释
请添加图片描述

附录B

主要是得出来ppl下降是减缓了early token curse的作用
请添加图片描述
early token curse
请添加图片描述

假设为什么会外推
请添加图片描述
所以作者使用sliding window进行评估
请添加图片描述

从这里可以发现,ppl比较平稳,所以假设二成立

未来可以做的方向:

如何更好的利用更长的前文。

请添加图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/366117
推荐阅读
相关标签
  

闽ICP备14008679号