当前位置:   article > 正文

关于transformer-xl和xlnet以及tensorflow的知识简要小结_xlnet的输入 mems

xlnet的输入 mems

01 transformer-xl

由于transformer只能限制到固定长度内容的文本之间的关系,如果文本长度不固定,不能很好的表示之间的联系。而transformer-xl引入了相对位置之间的表示方法,以及以循环神经网络的方式,记录信息之间的联系,可以更好的解决不同时刻词语之间的关系信息。

参考文章:

A Light Introduction to Transformer-XL  https://medium.com/dair-ai/a-light-introduction-to-transformer-xl-be5737feb13

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context https://arxiv.org/pdf/1901.02860.pdf

02 XLnet

由于bert在pretrain和finetune之间会形成脱节(信息损失),而引入了XLnet模型,这个模型可以克服掉pretrain和finetune之间的不能有效搭配的问题,xlnet采用自回归模型(AR)和自编码模型(AE),其中自编码模型是采用tranformer-xl编码层的方法,通过对应embeding之间的id采用全排列的方式,把输入的所有之间的信息联系起来,通过双流注意力的方式,基于content的注意力(self-attention)和基于query的注意力(遮挡住当前预测位置的词),来进行预测。这种方法更加预测准确。

参考文章:

Understanding Language using XLNet with autoregressive pre-training https://medium.com/@zxiao2015/understanding-language-using-xlnet-with-autoregressive-pre-training-9c86e5bea443

XLNet: Generalized Autoregressive Pretraining for Language Understanding  https://arxiv.org/pdf/1906.08237.pdf

03 tensorflow知识的小结:

tf.slice()的用法,这个方法其实是取对应输入向量的部分切片维度,参考链接:https://www.jianshu.com/p/71e6ef6c121b

tf.cast(freq_seq, dtype=dtype)  这个用法相当于将张量矩阵freq_seq,显示为对应type类型。

tf.range(0, d_model, 2.0)  这个用法指的是在[0,d_model]之间,输出开始位置为0,每个元素之间间隔2.

tf.concat([mems, h], 0) 相当于把mems和h按照第一维度,合并。

tf.get_variable('r_w_bias', [n_layer, n_head, d_head],
                           dtype=tf_float, initializer=initializer) 相当于创建一个变量名为‘r_w_bias’的[n_layer, n_head, d_head]维度,类型为tf_float的张量。

 tf.ones([qlen, qlen], dtype=dtype) 相当于创建了[qlen, qlen]维度都为1类型为dtype的张量矩阵。

tf.matrix_band_part(attn_mask, 0, 0) 相当于attn_mask 下三角部分除主对角位置其余位置都为0,上三角部分除主对角位置其余位置都为0。

tf.stop_gradient(new_mem)  不计算new_mem的梯度,将new_mem当为固定值使用。

 

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号