赞
踩
目录
ques:为什么需要mask?
ans:如果没有mask,那么在训练的时候存在you和know。如下图,但是在测试的时候,没有mask,会出现误差,模型效果不好。
需要mask 如图:
训练的时候将you和know mask掉,保证一致性。
所有的encoder输出和每一个decoder去做交互。
具体交互如下:
encoder生成K、V矩阵;decoder提高Q矩阵,即多有注意力机制计算K、Q、K的值。公式如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。