transformer 为什么使用 layer normalization，而不是其他的归一化方法？_transformer用ln的好处

作者：我家小花儿 | 2024-03-31 18:43:22

踩

transformer用ln的好处

对于深度学习的很多技巧，当你实验做得足够多的时候你就会发现，这类问题的唯一正确答案是：

因为实验结果显示这样做效果更好！

当然，你非要想找一个像模像样的解释，其实也能尝试一下。对于Transformer为什么用LN而不是BN/IN，我估计《Attention is all you need》的作者们当时肯定没有想那么多，而是发现当时NLP中主流就是用LN，所以就跟着用了。

那么，NLP为什么用LN居多呢？非要说原因，大致上是NLP的文本本质上可以看成一个时间序列，而时间序列是不定长的，长度不同的序列原则上属于不同的统计对象，所以很难得到稳定的统计量，而得不到稳定的统计量，BN就无法成立了（因为BN依靠滑动平均来获得一组预测用的统计量）。

但问题是，抛开具体的统计背景不说，我们硬是要在NLP模型中套上一层BN不行吗？肯定行，这又不犯法。那么是不是NLP+BN效果一定就不如NLP+LN？这还真不一定，以往我们做过一些实验，某些情况下NLP+BN是最好的，但总体来说还是NLP+LN更好，所以归根结底还是前面的唯一正确答案：

因为实验结果显示这样做效果更好ÿ

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/345687