花生_TL007

这个屌丝很懒，什么也没留下！

热门标签

机器学习：神经网络中的激活函数_sigmoid函数

作者：花生_TL007 | 2024-03-29 04:18:22

踩

sigmoid函数

随着深度学习的兴起，神经网络也似乎成了所有计算机视觉任务的标配，大家除了研究各种各样的网络结构之外，还有研究优化方法的，以及激活函数的，这篇博客就对当前各种各样的激活函数做一个总结，分析其背后的性质。

到目前为止，激活函数的形式有很多种了，早期的激活函数主要是 sigmoid 以及 tanh 函数，这两种函数都能将输入限制在很小的范围内，算是一种非线性函数，后来又出现了 RELU 以及各种基于 RELU 的变体。

Tanh 函数

tanh 是一种双曲函数，称为双曲正切，其表达式如下：

$\frac{e^{x} - e^{-x}}{e^{x} + e^{-x}}$

从上式可以看出，tanh 函数的取值范围是 [-1, 1]，其导数为：

$\begin{aligned} tanh'(x) &= ((e^{x} - e^{-x})(e^{x} + e^{-x})^{-1})' \\ &= (e^{x} + e^{-x})(e^{x} + e^{-x})^{-1} - (e^{x} - e^{-x})(e^{x} + e^{-x})^{-2}(e^{x} - e^{-x}) \\ &= 1 - \left( \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} \right)^2 \\ &= 1 - tanh^2(x) \end{aligned}$

其函数曲线及导数曲线如下所示：

tanh 函数曲线

Sigmoid 函数

sigmoid 函数也是非常常见的一种函数，其表达式如下：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

sigmoid 函数的取值范围是 [0, 1]，其导数为：

$\begin{aligned} \sigma'(x) &= \frac{1}{(1+e^{-x})^2} e^{-x} \\ &= \frac{1 + e^{-x} - 1}{(1+e^{-x})^2} \\ &= \sigma(x) - \sigma^2{x} \\ &= \sigma(x)(1 - \sigma(x)) \end{aligned}$

其函数曲线及导数曲线如下：

sigmoid 函数曲线

RELU 函数

relu 函数在如今的深度神经网络里面，应该是非常主流的一种函数了，上面介绍的两种激活函数，我们可以看到其导数的取值范围很小，在深度神经网络里，这种导数在链式传导的时候，有可能出现梯度消失的问题，所以为了解决这个问题，relu 这种函数获得了推广和关注，relu 函数的形式非常简单：

$\max(0, x)$

$\begin{cases} x & \text{ if } x > 0 \\ 0 & \text{ if } x < 0 \end{cases}$

可以看出，就是把小于 0 的输出都给截断了，而大于 0 的输出都保留，其导数也很简单，不过 relu 函数的导数不连续，在 0 这个地方出现断裂：

$\begin{cases} 1 & \text{ if } x > 0 \\ 0 & \text{ if } x < 0 \end{cases}$

relu 函数曲线

在这里插入图片描述

RELU6 函数

Relu6 属于 Relu 函数的一种变体，将大于 0 的输出在某个地方做了一个截断，从函数名上可以看出，这个截断就是在 6 这个地方，其函数表达式为：

$\begin{cases} 0 & \text{ if } x < 0 \\ 6 & \text{ if } x > 6 \\ x & \text{otherwise} \end{cases}$

从函数表达式可以看出，只有在 [0, 6] 之间的输入保持了线性关系，小于 0 和大于 6 的输入都直接截断了，其导数形式为：

$\begin{cases} 0 & \text{ if } x < 0 \\ 0 & \text{ if } x > 6 \\ 1 & \text{otherwise} \end{cases}$

ELU 函数

ELU 函数属于 RELU 函数的变体，因为原始的 RELU 函数对小于 0 的输入都直接截断了，所以为了克服这个问题，提出了很多的变体，ELU 是其中的一种，其函数表达式如下：

$\begin{cases} x & \text{ if } x > 0 \\ \alpha * (e^{x} - 1) & \text{ if } x < 0 \end{cases}$

ELU 对小于 0 的输入没有直接截断，而是用一个指数函数来表示，一定程度保留了小于 0 的部分，相应地，其导数也分成两部分：

$\begin{cases} 1 & \text{ if } x > 0 \\ \alpha * e^{x} & \text{ if } x < 0 \end{cases}$

elu 函数曲线

SELU 函数

SELU 函数的表达式如下：

$\begin{cases} x & \text{ if } x > 0 \\ \alpha * e^{x} - \alpha & \text{ if } x < 0 \end{cases}$

上面的 $\alpha = 1.6732632423543772848170429916717$ ，
$\lambda = 1.0507009873554804934193349852946$ ，

Selu 的导数为：

$\begin{cases} 1 & \text{ if } x > 0 \\ \alpha * e^{x} & \text{ if } x \leq 0 \end{cases}$

LeakyReLU 函数

LeakyReLU 函数也是 RELU 函数的变体，类似 ELU，其小于 0 的部分并没有截断，不过不同于 ELU 的是，LeakyReLU 没有用指数函数，而是简单的一个线性函数来表示：

$\begin{cases} x & \text{ if } x > 0 \\ \alpha * x & \text{ if } x < 0 \end{cases}$

其导数形式也很简单：

$\begin{cases} 1 & \text{ if } x > 0 \\ \alpha & \text{ if } x < 0 \end{cases}$

HardShrink 函数

HardShrink 类似一个对称函数，在大于一定阈值与小于一定阈值的输入保持不变，而在某个范围之间的为 0，其函数表达式如下：

$\begin{cases} x & \text{ if } x > \lambda \\ -x & \text{ if } x < -\lambda \\ 0 & \text{otherwise} \end{cases}$

$\lambda$ 一般取 0.5，其导数形式也很直接：

$\begin{cases} 1 & \text{ if } x > \lambda \\ -1 & \text{ if } x < -\lambda \\ 0 & \text{otherwise} \end{cases}$

HardSigmoid 函数

HardSigmoid 函数类似 sigmoid 函数，取值范围也是 [0, 1] 之间，不过不是利用指数函数做非线性变换，而是一个线性函数来实现的，其函数形式如下所示：

$\begin{cases} 0 & \text{ if } x \leq -3 \\ 1 & \text{ if } x \geq 3 \\ x/6 + 1/2 & \text{otherwise} \end{cases}$

其导数形式也比较简单：

$\begin{cases} 0 & \text{ if } x \leq -3 \\ 0 & \text{ if } x \geq 3 \\ 1/6 & \text{otherwise} \end{cases}$

Hardtanh

应该是基于 tanh 函数变化而来，tanh 的取值范围是 [-1, 1]，hardtanh 的取值范围也是 [-1, 1]，只不过在这个区间是一个线性函数的映射：

$\begin{cases} -1 & \text{ if } x \leq -1 \\ 1 & \text{ if } x \geq 1 \\ x & \text{otherwise} \end{cases}$

其导数形式为：

$\begin{cases} 0 & \text{ if } x \leq -1 \\ 0 & \text{ if } x \geq 1 \\ 1 & \text{otherwise} \end{cases}$

Hardswish

这个函数的形式如下：

$\begin{cases} 0 & \text{ if } x \leq -3 \\ x & \text{ if } x \geq 3 \\ x \cdot (x+3)/6 & \text{otherwise} \end{cases}$

其导数形式如下：

$\begin{cases} 0 & \text{ if } x \leq -3 \\ 1 & \text{ if } x \geq 3 \\ x/6 + 1/2 & \text{otherwise} \end{cases}$

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】