Transformer——Decoder_transformer不加mask会怎么样

作者：IT小白 | 2024-04-01 10:12:39

踩

transformer不加mask会怎么样

1 多头注意力机制

ques:为什么需要mask？

ans:如果没有mask，那么在训练的时候存在you和know。如下图，但是在测试的时候，没有mask，会出现误差，模型效果不好。

需要mask 如图：

训练的时候将you和know mask掉，保证一致性。

所有的encoder输出和每一个decoder去做交互。

具体交互如下：

encoder生成K、V矩阵；decoder提高Q矩阵，即多有注意力机制计算K、Q、K的值。公式如下：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/348330?site