赞
踩
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(Google)(ICLR 2019 被拒)基于一种相对位置编码方式建立循环的transformer建模机制,解决长文本的建模,捕获超长距离依赖。
在BERT等训练模型中处理的文本序列默长度是512,如果文本序列长度短于固定长度,可以通过填充的方式来解决。但如果序列长度超过固定长度,处理起来就比较麻烦。为了应对序列长度超过固定长度的情况,Vanilla Transformer把长文本的输入切分成多个Segment,但训练的时候,对每个segment单独处理,segments之间没有联系。因此该模型存在以下问题:
1)最长依赖取决于segment长度
2)不同segment之间不传递信息
3)固定大小切分造成语义碎片
为了充分利用上下文关系,在每做完一次预测之后,就对整个序列向右移动一个位置,再做一次计算,如上图(b)所示,这导致计算效率非常低。
为了解决Vanilla Transformer滑动的方式计算效率低的问题,在模型中加入循环机制。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。