当前位置:   article > 正文

权重衰减_权重衰减和梯度裁剪

权重衰减和梯度裁剪

为什么权重衰减能抑制过拟合?(道理听起来没有drop out直观)

  1. 较小的权重,网络复杂度更低。因为拟合函数可以看作是一个多项式,权重较小时,多项式中部分项的系数接近于0,所以较小的权重相当于间接地减少了参数的数量,所以网络复杂度更低。

  2. 过拟合的时候,一般系数比较大。因为要拟合每一个点,函数在小的区间会发生剧烈波动,也就是导数大,而导数大要求自变量系数大。所以控制系数大小,能抑制过拟合


在深层网络中,权重衰减没有drop out管用?

梯度裁切更管用?High-Performance Large-Scale Image Recognition Without Normalization

前向传播中的裁剪特征(如归一化)就相当于反向传播时的梯度裁切?

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/946007
推荐阅读
相关标签
  

闽ICP备14008679号