赞
踩
参考:《解析深度学习——卷积神经网络原理与视觉实践》
网址:http://lamda.nju.edu.cn/weixs/book/CNN_book.pdf
一、Sigmoid函数
缺点:大于 5(或小于 −5)部分的梯度接近 0,这会导致在误差反向传播过程中导数处于该区域的误差很难甚至无法传递至前层,进而导致整个网络无法正常训练;Sigmoid型激活函数值域的均值并非为 0 而是全为正,这样的结果实际上并不符合我们对神经网络内数值的期望(均值)应为 y0的设想。
二、tanh(x)函数
三、ReLU修正线性单元
优点:有助于随机梯度下降收敛
缺点:在 x < 0 时,梯度便为 0。换句话说,对于小于 0 的这部分卷积结果响应,它们一旦变为负值将再无法影响网络训练——这
种现象被称作“死区”。
四、LeakyReLU
五、参数化ReLU
参数化ReLU直接将 α 也作为一个网络中可学习的变量融入模型的整体训练过程。在求解参数化ReLU时,文献[34]中仍使用传统的误差反向传播和随机梯度下降,对于参数 α 的更新遵循链式法则.
注:效果比ReLU好,虽参数化 ReLU在带来更大自由度的同时,但也增加了网络模型过拟合的风险,在实际使用中需格外注意。
六、随机化ReLU——将α 值设定随机化
七、指数化线性单元ELU
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。