当前位置:   article > 正文

transformer的encoder和decoder的差别_transformer encoder和decoder的区别

transformer encoder和decoder的区别
  • decoder包含两个 Multi-Head Attention 层。
  • decoder第一个 Multi-Head Attention 层采用了 Masked 操作。
  • decoder第二个 Multi-Head Attention 层的K, V矩阵使用 Encoder 的编码信息矩阵C进行计算,而Q使用上一个 Decoder block 的输出计算。
  • decoder最后有一个 Softmax 层计算下一个翻译单词的概率。

更详细的介绍见

详解Transformer (Attention Is All You Need) - 知乎

Transformer模型详解(图解最完整版) - 知乎

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/348366
推荐阅读
相关标签
  

闽ICP备14008679号