赞
踩
自从transformer模型被提出以来,一个基本问题尚未得到回答:对于比训练中看到的更长的序列,模型如何在推理时实现外推。我们首先证明了外推可以通过简单地改变位置表示方法来实现,尽管我们发现目前的方法不允许有效的外推。因此我们引入了一个更加简单而且更高效的位置表示方法,即Attention with Linear Biases(ALiBi)。ALiBi不会将position embedding和word embedding相加,它使query-key的注意力得分产生偏差,惩罚与他们的距离成正比 。实验表明,该方法在长度为1024的输入序列上训练13亿参数模型,该模型外推到长度为2048的输入序列,实现了与在长度为2048输入上训练的正弦位置嵌入模型相同的困惑度 ,但训练速度快11%,使用的内存少11%。ALiBi对时间的归纳偏见也使其在WikiText-103基准测试中优于多种强位置方法。
在构建一个基于transformer的模型时,一个主要的设计是对训练时序列长度的设计,在这里用 L L
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。