[论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(上)

作者：盐析白兔 | 2024-04-14 10:40:54

踩

引言

今天带来苏神的旋转位置编码论文，ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING，论文题目翻译过来是基于旋转位置嵌入增强的Transformer:RoFormer。旋转位置编码被很多大模型架构采用。

位置编码对Transformer架构是至关重要的。它为不同位置的序列元素之间的依赖建模提供了有价值的监督。本文作者提出了一种名为Rotary Position Embedding(RoPE，旋转位置编码)的新方法，可以有效地利用位置信息。

具体而言，RoPE通过旋转矩阵编码绝对位置，并在自注意力机制中同时引入显式的相对位置依赖。值得注意的是，RoPE具有一些有价值的特性，包括序列长度的灵活性、相对距离增加时的递减的元素间依赖性以及为线性自注意力提供相对位置编码的能力。

RoFormer已经集成到Huggingface中：https://huggingface.co/docs/transformers/model_doc/roformer。

笔记比较长，因此分为上下两部分。

单词的顺序对于自然语言理解非常重要。最近，基于Transformer架构的预训练语言模型(PLM)在多种NLP任务上取得了SOTA结果。PLM利用自注意力机制捕获给定语料的上下文表示语义，同时在并行化与RNN相比取到了显著地改进。

当前PLM的自注意力架构已被证明与位置无关。因此，人们提出了各种方法来将位置信息编码到学习过程中。一方面，通过预定义函数生成绝对位置编码，将其添加到上下文表示中，而可训练的绝对位置编码也被提出。另一方面，之前的工作侧重于相对位置编码，通常将相对位置信息编码到注意

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/421693