当前位置:   article > 正文

长度外推性(指我们在短序列上训练的模型,能否不用微调地用到长序列上并依然保持不错的效果)【ALIBI位置编码】(像RoPE算是外推能力较好的位置编码,也只能外推10%到20%左右的长度而保持效果不变)_位置编码 外推 内扩

位置编码 外推 内扩

外推性

  • 指我们在短序列上训练的模型,能否不用微调地用到长序列上并依然保持不错的效果。

之所以追求长度外推性:

  • 一方面是理论的完备性,觉得这是一个理想模型应当具备的性质;
  • 另一方面也是训练的实用性,允许我们以较低成本(在较短序列上)训练出一个长序列可用的模型;

对于Transformer模型来说,其长度的外推性是我们一直在追求的良好性质,它是指我们在短序列上训练的模型,能否不用微调地用到长序列上并依然保持不错的效果。之所以追求长度外推性,一方面是理论的完备性,觉得这是一个理想模型应当具备的性质,另一方面也是训练的实用性,允许我们以较低成本(在较短序列上)训练出一个长序列可用的模型。

下面我们来分析一下加强Transformer长度外推性的关键思路,并由此给出一个“超强基线”方案,然后我们带着这个“超强基线”来分析一些相关的研究工作。

思维误区 #

第一篇明确研究Transformer长度外推性的工作应该是ALIBI,出自2021年中期,距今也不算太久。为什么这么晚(相比Transformer首次发表的2017年)才有人专门做这个课题呢?估计是因为我们长期以来,都想当然地认为Transformer的长度外推性是位置编码的问题ÿ

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/362698
推荐阅读
相关标签
  

闽ICP备14008679号