当前位置:   article > 正文

NLP(十二):Transformer-XL和XLNet_xlnet与 transformer-xl

xlnet与 transformer-xl

1.Transformer-XL

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(Google)(ICLR 2019 被拒)基于一种相对位置编码方式建立循环的transformer建模机制,解决长文本的建模,捕获超长距离依赖。

1.1 Vanilla Transformer

在BERT等训练模型中处理的文本序列默长度是512,如果文本序列长度短于固定长度,可以通过填充的方式来解决。但如果序列长度超过固定长度,处理起来就比较麻烦。为了应对序列长度超过固定长度的情况,Vanilla Transformer把长文本的输入切分成多个Segment,但训练的时候,对每个segment单独处理,segments之间没有联系。因此该模型存在以下问题:

1)最长依赖取决于segment长度
2)不同segment之间不传递信息
3)固定大小切分造成语义碎片

在这里插入图片描述
为了充分利用上下文关系,在每做完一次预测之后,就对整个序列向右移动一个位置,再做一次计算,如上图(b)所示,这导致计算效率非常低。

1.2 循环机制

为了解决Vanilla Transformer滑动的方式计算效率低的问题,在模型中加入循环机制。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/451187
推荐阅读
相关标签
  

闽ICP备14008679号