赞
踩
上者没有进行 normalization,下者进行了 normalization,这样当然是下者能够更有效地利用 tanh 进行非线性化的过程。没有 normalize 的数据 使用 tanh 激活以后, 激活值大部分都分布到了饱和阶段, 也就是大部分的激活值不是-1, 就是1, 而 normalize 以后, 大部分的激活值在每个分布区间都还有存在. 再将这个激活后的分布传递到下一层神经网络进行后续计算, 每个区间都有分布的这一种对于神经网络就会更加有价值。
如果还不明白,我再举个放羊的例子。
最开始羊群聚在一起吃草,过了一段时间羊群慢慢散开了,这时候羊群的主人把羊群往一块赶一赶,防止个别的羊走散了。羊群就是输入数据,BN就是羊群的主人。
2、批归一化(BN)算法流程
==============
下面给出 BN 算法在训练时的过程
输入:上一层输出结果 X = {x_1, x_2, …, x_m} ,学习参数 ), )
算法流程:
第一步 计算上一层输出数据的均值
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。