长度外推性（指我们在短序列上训练的模型，能否不用微调地用到长序列上并依然保持不错的效果）【ALIBI位置编码】（像RoPE算是外推能力较好的位置编码，也只能外推10%到20%左右的长度而保持效果不变）_位置编码外推内扩

作者：凡人多烦事01 | 2024-04-05 02:23:00

踩

位置编码外推内扩

外推性

指我们在短序列上训练的模型，能否不用微调地用到长序列上并依然保持不错的效果。

之所以追求长度外推性：

一方面是理论的完备性，觉得这是一个理想模型应当具备的性质；
另一方面也是训练的实用性，允许我们以较低成本（在较短序列上）训练出一个长序列可用的模型；

对于Transformer模型来说，其长度的外推性是我们一直在追求的良好性质，它是指我们在短序列上训练的模型，能否不用微调地用到长序列上并依然保持不错的效果。之所以追求长度外推性，一方面是理论的完备性，觉得这是一个理想模型应当具备的性质，另一方面也是训练的实用性，允许我们以较低成本（在较短序列上）训练出一个长序列可用的模型。

下面我们来分析一下加强Transformer长度外推性的关键思路，并由此给出一个“超强基线”方案，然后我们带着这个“超强基线”来分析一些相关的研究工作。

思维误区 #

第一篇明确研究Transformer长度外推性的工作应该是ALIBI，出自2021年中期，距今也不算太久。为什么这么晚（相比Transformer首次发表的2017年）才有人专门做这个课题呢？估计是因为我们长期以来，都想当然地认为Transformer的长度外推性是位置编码的问题ÿ

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/362698

长度外推性（指我们在短序列上训练的模型，能否不用微调地用到长序列上并依然保持不错的效果）【ALIBI位置编码】（像RoPE算是外推能力较好的位置编码，也只能外推10%到20%左右的长度而保持效果不变）_位置编码 外推 内扩

思维误区 #

长度外推性（指我们在短序列上训练的模型，能否不用微调地用到长序列上并依然保持不错的效果）【ALIBI位置编码】（像RoPE算是外推能力较好的位置编码，也只能外推10%到20%左右的长度而保持效果不变）_位置编码外推内扩