赞
踩
激活函数用来怎加非线性因素的,提高模型拟合能力。如果不存在激活函数,神经网络的每一层的输入都是对前面输入的线性变化,就算把网络加到很深也无法去拟合任意函数的。
虽然我们常用激活函数不是很多,那是否只有这些函数能作为激活函数呢?我们从神经网络的工作过程中看,激活函数具有什么样的性质能够更好的帮助神经网络的训练。(借鉴Hengkai Guo添加链接描述)
1. 函数图像和公式
我们从图像和公式上结合上面分析的激活函数的特性来看看Sigmoid激活函数的优点和缺点。
f
(
x
)
=
1
1
+
e
−
x
{\rm{f}}(x) = \frac{1}{{1 + {e^{ - x}}}}
f(x)=1+e−x1
2. 函数性质
4. 优点和缺点
1. 函数图像和公式
函数图像:
函数公式:
f
(
x
)
=
(
e
x
−
e
−
x
)
(
e
x
+
e
−
x
)
f(x) = \frac{{({e^x} - {e^{ - x}})}}{{({e^x} + {e^{ - x}})}}
f(x)=(ex+e−x)(ex−e−x)
2. 函数倒数图像和导数
导数公式:
f
′
(
x
)
=
1
−
(
f
(
x
)
)
2
{f'}(x) = 1 - {(f(x))^2}
f′(x)=1−(f(x))2
倒数图像:
3. 函数性质
我们从图像和公式上结合上面分析的激活函数的特性来看看Tanh激活函数的优点和缺点,Tanh函数类似于将Sigmoid函数拉伸和向下平移的结果。
4. 优点和缺点
先针对自然语言处理领域常用的RNN和LSTM网络来说
1. RNN 中为什么要采用 tanh,而不是 ReLU 作为激活函数?
(引用何之源的回答)添加链接描述
2. 为什么LSTM模型中既存在sigmoid又存在tanh两种激活函数?
(引用知乎问题添加链接描述)
ReLU函数代表的的是“修正线性单元”,它是带有卷积图像的输入x的最大函数(x,o)。ReLU函数将矩阵x内所有负值都设为零,其余的值不变
公式:
f
(
x
)
=
max
(
α
x
,
x
)
f(x) = \max (\alpha x,x)
f(x)=max(αx,x)
函数图像跟之前的ReLu图像很像,同样的PReLU和ELU激活函数也是在ReLu的基础上针对ReLU在训练时神经元容易死亡做出了优化,基本的思路就是让函数小于0的部分不直接为0,而是等于一个很小的数,使得负轴的信息不至于完全丢弃。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。