transformer的encoder和decoder的差别_transformer encoder和decoder的区别

作者：Cpp五条 | 2024-04-01 10:17:38

踩

transformer encoder和decoder的区别

decoder包含两个 Multi-Head Attention 层。
decoder第一个 Multi-Head Attention 层采用了 Masked 操作。
decoder第二个 Multi-Head Attention 层的K, V矩阵使用 Encoder 的编码信息矩阵C进行计算，而Q使用上一个 Decoder block 的输出计算。
decoder最后有一个 Softmax 层计算下一个翻译单词的概率。

更详细的介绍见

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/348366