赞
踩
为什么权重衰减能抑制过拟合?(道理听起来没有drop out直观)
较小的权重,网络复杂度更低。因为拟合函数可以看作是一个多项式,权重较小时,多项式中部分项的系数接近于0,所以较小的权重相当于间接地减少了参数的数量,所以网络复杂度更低。
过拟合的时候,一般系数比较大。因为要拟合每一个点,函数在小的区间会发生剧烈波动,也就是导数大,而导数大要求自变量系数大。所以控制系数大小,能抑制过拟合。
在深层网络中,权重衰减没有drop out管用?
梯度裁切更管用?High-Performance Large-Scale Image Recognition Without Normalization
前向传播中的裁剪特征(如归一化)就相当于反向传播时的梯度裁切?
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。