赞
踩
BatchNorm的主要作用是加速训练
BatchNorm还有轻微的正则化效果
对于神经网络中其中某一层给定的隐藏单元Z(1)…Z(m)有以下操作:
第一步,求Z(1)…Z(m)的平均值。
第二步,求其方差
第三步,是在做归一化
前三步做完得到的数据是均值是0,方差是1,满足正态分布,用此时的数据就可以达到加速训练的效果了,但是这样就学不到他们的特征了,因为本来这些数据的分布就是不同的,所以我们不能把他们归一化到均值是0,方差是1。所以有了第四步。
第四步加了两个参数γ和β,分别叫做缩放参数和平移参数,通过选择不同的γ和β可以让隐藏单元有不同的分布。
通过第四步 得到y(i),这个是我们最后要的。
这里面的γ和β可以从你的模型中学习,可以用梯度下降,Adam等算法进行更新。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。