NLP-transformer部分知识点

作者：我家小花儿 | 2024-04-03 00:03:13

踩

1. Scaled Dot-Product Attention中为什么要除以 $\sqrt{d_k}$

2. transformer encoder对单词进行embedding时，为什么乘以 $\sqrt{d_k}$ （来自知乎）

$E(\overline{X}) = 0\\ E(S^2) = 1/d_{model}$

所以 $Embedding \sim N(0, 1/d_{model})$ ，乘以 $\sqrt{d_k}$ 以达到统一的标准正态分布的目的（知乎@王四喜）
那么为什么不直接用 $N \sim (0, 1)$ 进行初始化？
知乎@Towser解释：因为transformer中可以设置tied-embedding的存在（减少参数），此时比如 decoder最后输出softmax前，需要做一次线性映射（Linear）到词汇空间，linear的weight即来自于embedding的weight；线性层需要用到Xavier初始化，因此embedding层也就先用Xavier初始化，再缩放回来；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/354109?site