当前位置:   article > 正文

LayerNorm 与 BatchNorm异同_batchnorm和layernorm的区别

batchnorm和layernorm的区别

       思想与BatchNorm一致,都是通过将某一部分变为均值为0,方差为1来正则化

,并且可以通过学习参数 γ 将其变为方差/均值为任意值的参数。

不同点:

  1. BatchNorm是对feature即列进行归一化,而LayerNorm是对每一个batch即行进行归一化。
  2. batchnorm是对全局做一个均值方差,这样碰到sequence长度不一致的时候,会导致之前拟合的参数不好用了。
  3. layernorm则是以batch为单位计算均值方差,相对来说更加稳定。

方法:Pytorch

  1. x.mean(axis=, keepdim=)
  2. x.std(axis=, keepdim=)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/458180
推荐阅读
相关标签
  

闽ICP备14008679号