赞
踩
由于transformer只能限制到固定长度内容的文本之间的关系,如果文本长度不固定,不能很好的表示之间的联系。而transformer-xl引入了相对位置之间的表示方法,以及以循环神经网络的方式,记录信息之间的联系,可以更好的解决不同时刻词语之间的关系信息。
参考文章:
A Light Introduction to Transformer-XL https://medium.com/dair-ai/a-light-introduction-to-transformer-xl-be5737feb13
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context https://arxiv.org/pdf/1901.02860.pdf
由于bert在pretrain和finetune之间会形成脱节(信息损失),而引入了XLnet模型,这个模型可以克服掉pretrain和finetune之间的不能有效搭配的问题,xlnet采用自回归模型(AR)和自编码模型(AE),其中自编码模型是采用tranformer-xl编码层的方法,通过对应embeding之间的id采用全排列的方式,把输入的所有之间的信息联系起来,通过双流注意力的方式,基于content的注意力(self-attention)和基于query的注意力(遮挡住当前预测位置的词),来进行预测。这种方法更加预测准确。
参考文章:
Understanding Language using XLNet with autoregressive pre-training https://medium.com/@zxiao2015/understanding-language-using-xlnet-with-autoregressive-pre-training-9c86e5bea443
XLNet: Generalized Autoregressive Pretraining for Language Understanding https://arxiv.org/pdf/1906.08237.pdf
tf.slice()的用法,这个方法其实是取对应输入向量的部分切片维度,参考链接:https://www.jianshu.com/p/71e6ef6c121b
tf.cast(freq_seq, dtype=dtype) 这个用法相当于将张量矩阵freq_seq,显示为对应type类型。
tf.range(0, d_model, 2.0) 这个用法指的是在[0,d_model]之间,输出开始位置为0,每个元素之间间隔2.
tf.concat([mems, h], 0) 相当于把mems和h按照第一维度,合并。
tf.get_variable('r_w_bias', [n_layer, n_head, d_head],
dtype=tf_float, initializer=initializer) 相当于创建一个变量名为‘r_w_bias’的[n_layer, n_head, d_head]维度,类型为tf_float的张量。
tf.ones([qlen, qlen], dtype=dtype) 相当于创建了[qlen, qlen]维度都为1类型为dtype的张量矩阵。
tf.matrix_band_part(attn_mask, 0, 0) 相当于attn_mask 下三角部分除主对角位置其余位置都为0,上三角部分除主对角位置其余位置都为0。
tf.stop_gradient(new_mem) 不计算new_mem的梯度,将new_mem当为固定值使用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。