赞
踩
1. Scaled Dot-Product Attention中为什么要除以
解释一下上述引用内容
一个比较强的假设:q、k属于多维独立同分布(标准正太分布N~(0,1))随机变量
则,
同时根据 独立同分布随机变量 和 的方差等于方差的和,可以得到
可以发现点积后,均值不变,但是方差发生明显变化;为了使模型在一个统一的标准正太分布中学习,上述式子除以 即可满足要求;
2. transformer encoder对单词进行embedding时,为什么乘以(来自知乎)