当前位置:   article > 正文

论文阅读:TRAIN SHORT, TEST LONG: ATTENTION WITH LINEAR BIASES ENABLES INPUT LENGTH EXTRAPOLATION

train short, test long: attention with linear biases enables input length ex

论文链接

ABSTRACT

自从transformer模型被提出以来,一个基本问题尚未得到回答:对于比训练中看到的更长的序列,模型如何在推理时实现外推。我们首先证明了外推可以通过简单地改变位置表示方法来实现,尽管我们发现目前的方法不允许有效的外推。因此我们引入了一个更加简单而且更高效的位置表示方法,即Attention with Linear Biases(ALiBi)。ALiBi不会将position embedding和word embedding相加,它使query-key的注意力得分产生偏差,惩罚与他们的距离成正比 。实验表明,该方法在长度为1024的输入序列上训练13亿参数模型,该模型外推到长度为2048的输入序列,实现了与在长度为2048输入上训练的正弦位置嵌入模型相同的困惑度 ,但训练速度快11%,使用的内存少11%。ALiBi对时间的归纳偏见也使其在WikiText-103基准测试中优于多种强位置方法。

1. INTRODUCTION

在构建一个基于transformer的模型时,一个主要的设计是对训练时序列长度的设计,在这里用 L L

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/81430
推荐阅读
相关标签
  

闽ICP备14008679号