当前位置:   article > 正文

mt5模型调研

mt5模型

T5全称是Text-to-Text Transfer Transformer,是一种模型架构或者说是一种解决NLP任务的一种范式。

把所有任务,如分类、相似度计算、文本生成都用一个Text-to-text(文本到文本)的框架里进行解决。

模型结构

先说模型结构:encoder-decoder架构,编码层和解码层都是12层,一共有220M个参数,大概是bert-base 的两倍

与之对应的是其他两种,共三种模型结构。

对应下来就是三种mask方式:

encode-decode就是mask方式1和2。language model就是方式2。prefix lm就是方式3。

预训练方法
  1. 语言模型式,就是 GPT-2 那种方式,从左到右预测;

  2. BERT-style 式,就是像 BERT 一样将一部分给破坏掉,然后还原出来;

  3. Deshuffling (顺序还原)式,就是将文本打乱,然后还原出来。

t5模型通过实验对比,发现text to text场景下的预训练更适合bert-style。这里的bert-style就是masked掉一个词,然后经过trans的encoder部分和decoder部分算分数,求loss。这样更适合我们text to text 的范式,生成式的预测。

  1. T5Block(
  2. (layer): ModuleList(
  3. (0): T5LayerSelfAttention(
  4. (SelfAttention): T5Attention(
  5. (q): Linear(in_features=1024, out_features=1024, bias=False)
  6. (k): Linear(in_features=1024, out_features=1024, bias=False)
  7. (v): Linear(in_features=1024, out_features=1024, bias=False)
  8. (o): Linear(in_features=1024, out_features=1024, bias=False)
  9. )
  10. (layer_norm): T5LayerNorm()
  11. (dropout): Dropout(p=0.1, inplace=False)
  12. )
  13. (1): T5LayerCrossAttention(
  14. (EncDecAttention): T5Attention(
  15. (q): Linear(in_features=1024, out_features=1024, bias=False)
  16. (k): Linear(in_features=1024, out_features=1024, bias=False)
  17. (v): Linear(in_features=1024, out_features=1024, bias=False)
  18. (o): Linear(in_features=1024, out_features=1024, bias=False)
  19. )
  20. (layer_norm): T5LayerNorm()
  21. (dropout): Dropout(p=0.1, inplace=False)
  22. )
  23. (2): T5LayerFF(
  24. (DenseReluDense): T5DenseReluDense(
  25. (wi): Linear(in_features=1024, out_features=4096, bias=False)
  26. (wo): Linear(in_features=4096, out_features=1024, bias=False)
  27. (dropout): Dropout(p=0.1, inplace=False)
  28. (relu_act): ReLU()
  29. )
  30. (layer_norm): T5LayerNorm()
  31. (dropout): Dropout(p=0.1, inplace=False)
  32. )
  33. )
  34. )

可以发现代码实现里是不存在multi masked attention的,个人觉得原因是:encoder出来的embedding 包含了masked的embedding,那如果把这部分embedding代入到masked attention的计算中,肯定是不合理的。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/496563
推荐阅读
相关标签
  

闽ICP备14008679号