赞
踩
需要源码请点赞关注收藏后评论区留言私信~~~
激活函数是神经网络中的重要组成部分。在多层神经网络中,上层节点的输出和下层节点的输入之间有一个函数关系。如果这个函数我们设置为非线性函数,深层网络的表达能力将会大幅度提升,几乎可以逼近任何函数,这里,我们把这些非线性函数叫做激活函数。激活函数的作用就是给网络提供非线性的建模能力。
Sigmoid函数指一类S型曲线函数,为两端饱和函数。Sigmoid函数是使用范围最广的一类激活函数,在物理意义上最接近生物神经元
由于它的输出在(0,1)之间,所以还可以被表示为概率或者用作输入的归一化,即带有“挤压”的功能
Sigmoid函数图像与公式
torch.sigmoid():函数或方法 torch.nn.Sigmoid() :网络层 torch.nn.functional.sigmoid():层中方法,在forward中使用
Sigmoid函数很好地解释了神经元在受到刺激的情况下是否被激活和向后传递的情景,当取值接近0时几乎没有被激活,当取值接近1的时候几乎完全被激活
sigmoid函数缺点,那就是使用sigmoid函数容易出现梯度消失,甚至小概率会出现梯度爆炸问题
解析式里含有幂函数,计算机在求解的时候比较耗时,对于规模比较大的网络来说,将会较大的增加网络训练的时间
sigmoid的输出不是0均值的,这会造成后面层里的神经元的输入是非零均值的信号,从而对梯度产生影响,使得收敛缓慢
代码如下
- import matplotlib.pyplot as plt
- import numpy as np
-
- x = np.linspace(-10,10)
- y_sigmoid = 1/(1+np.exp(-x))
- y_tanh = (np.exp(x)-np.exp(-x))/(np.exp(x)+np.exp(-x))
-
- fig = plt.figure()
- # plot sigmoid
- ax = fig.add_subplot()
- ax.plot(x,y_tanh)
- ax.grid()
- ax.set_title('Sigmoid')
- plt.show()
tanh函数是sigmoid函数的一个变形,两者的关系为tanh(x)=2sigmoid(2x)-1
Tanh函数图像与公式
将输出值映射到(-1,1)之间,因此解决了sigmoid函数的非0均值问题
tanh函数也存在缺点,即它也存在梯度消失和梯度爆炸的问题
幂运算也会导致计算耗时久
为了防止饱和情况的发生,在激活函数前可以加一步batch normalization,尽可能的保证神经网络的输入在每一层都具有均值较小的0中心分布
代码如下
- import matplotlib.pyplot as plt
- import numpy as np
-
- x = np.linspace(-10,10)
- y_sigmoid = 1/(1+np.exp(-x))
- y_tanh = (np.exp(x)-np.exp(-x))/(np.exp(x)+np.exp(-x))
-
- fig = plt.figure()
- ax = fig.add_subplot()
- ax.plot(x,y_tanh)
- ax.grid()
- ax.set_title('Tanh')
- plt.show()
Relu是修正线性单元(The Rectified Linear Unit)的简称,跟sigmoid和tanh函数相比,Relu函数对于随机梯度下降的收敛速度有极大的促进作用
Relu函数是近几年比较受欢迎的一个激活函数,目前在深度学习领域非常常用
ReLU函数图像与公式
ReLU函数不存在指数运算部分,几乎没有什么计算量
收敛快,计算简单,具有单侧抑制、宽兴奋边界的生物学合理性,可以缓解梯度消失的问题
缺点是有时候会比较脆弱,可能会导致神经元的死亡。比如很大的梯度经过Relu单元之后,权重的更新结果可能是0,在此之后它将永远不能再被激活
代码如下
- import matplotlib.pyplot as plt
- import numpy as np
-
- x = np.linspace(-10,10)
- y_sigmoid = 1/(1+np.exp(-x))
- y_tanh = (np.exp(x)-np.exp(-x))/(np.exp(x)+np.exp(-x))
-
- fig = plt.figure()
- ax = fig.add_subplot()
- y_relu = np.array([0*item if item<0 else item for item in x ])
- ax.plot(x,y_relu)
- ax.grid()
- ax.set_title('ReLu')
- plt.show()
公式中γ是很小的负数梯度值
LeakyRelu函数图像与公式
LeakyReLU解决了一部分ReLU存在的可能杀死神经元的问题。它给所有非负值赋予一个非零的斜率,来保证负轴不为零,保证负轴信息的存在性,因此解决了一部分神经元死亡的问题
然而,在实际使用的过程中,LeakyRelu函数并非总是有优于Relu函数
通常来说,很少把各种激活函数同时使用在一个网络中
可以首先试试Relu函数,如果效果不好,可以继而试用LeakyRelu函数,tanh函数等,最好不要轻易使用sigmoid函数。总而言之,激活函数的使用需要根据具体的模型具体分析,多尝试不同的激活函数,最后选取效果最好的一个,具体问题具体分析,不能一概而论
- import matplotlib.pyplot as plt
- import numpy as np
-
- x = np.linspace(-10,10)
- y_sigmoid = 1/(1+np.exp(-x))
- y_tanh = (np.exp(x)-np.exp(-x))/(np.exp(x)+np.exp(-x))
-
- fig = plt.figure()
- ax = fig.add_subplot()
- y_relu = np.array([0.2*item if item<0 else item for item in x ])
- ax.plot(x,y_relu)
- ax.grid()
- ax.set_title('Leaky ReLu')
- plt.show()
创作不易 觉得有帮助请点赞关注收藏~~~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。