从前慢现在也慢

这个屌丝很懒，什么也没留下！

热门标签

激活函数小结：ReLU、ELU、Swish、GELU等_swigelu

作者：从前慢现在也慢 | 2024-04-04 15:48:34

踩

swigelu

文章目录

- Sigmoid
- Tanh
- ReLU
- Maxout
- Mish
- Swish
- GELU
- GLU
- 资源

激活函数是神经网络中的非线性函数，为了增强网络的表示能力和学习能力，激活函数有以下几点性质：

连续且可导（允许少数点上不可导）的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数。
激活函数及其导函数要尽可能的简单，有利于提高网络计算效率。
激活函数的导函数的值域要在一个合适的区间内（不能太大也不能太小），否则会影响训练的效率和稳定性。

Sigmoid

Sigmoid函数（也被称为Logistic函数）的表达式如下：
$\sigma(x)=\frac{\exp (x)}{\exp (x)+\exp (0)} = \frac {1}{1+exp(-x)}$

其导数为
$\frac{d}{d x} \sigma(x)=\sigma(x)(1-\sigma(x))$

其图像如下图，是一个S型曲线，所以Sigmoid函数可以看做一个“挤压”函数，把一个实数域的输入“挤压”到(0,1)。当输入值在0附近时，Sigmoid函数近似为线性函数；当输入值靠近两端时，对输入进行抑制；输入越小，越接近于0；输入越大，越接近于1。

在这里插入图片描述

from matplotlib import pyplot as plt
import numpy as np
import torch
from torch import nn

x = np.linspace(-6, 6, 600)
m0 = nn.Sigmoid()
output0 = m0(torch.Tensor(x))
plt.plot(x, output0, label='Sigmod')
plt.title("Sigmoid Activation Function")
plt.xlabel("x")
plt.ylabel("Activation")
plt.grid()
plt.legend()
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Sigmoid激活函数的缺点：

倾向于梯度消失
函数输出不是以0为中心，会使其后一层的神经元的输入发生偏置偏移(Bias Shift)，进而使得梯度下降的收敛速度变慢，也就是会降低权重更新的效率
公式中包括指数运算，计算机运行较慢

Tanh

Tanh 函数也是一种S型函数，其定义为
$tanh(x)=\frac{\exp (x) - \exp (-x)}{\exp (x)+\exp (-x)}$

Tanh函数可以看做放大并平移的Sigmoid函数，其值域为(-1,1)，并且Tanh与Sigmoid函数关系如下式：
$\sigma(2x) -1$
Tanh函数如下图所示，它的输入是零中心化的了。
在这里插入图片描述

x = np.linspace(-6, 6, 600)
m0 = nn.Sigmoid()
output0 = m0(torch.Tensor(x))
plt.plot(x, output0, label='Sigmod')
m0_1 = nn.Tanh()
output0_1 = m0_1(torch.Tensor(x))
plt.plot(x, output0_1, label='Tanh')

plt.title("Sigmoid and Tanh Activation Functions")
plt.xlabel("x")
plt.ylabel("Activation")
plt.grid()
plt.legend()
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14

ReLU

ReLU（Rectified Linear unit）是最常见的激活函数，其公式为：
$\begin {aligned} ReLU(x) &=$

{\begin{cases} x x \geq 0 \\ 0 x < 0 \end{cases}

$\begin{cases} x \ \ \qquad x \ge 0 \\ 0 \ \ \qquad x<0 \end{cases}$ \\ &= max(0, x) \end {aligned}

R e LU (x) = {x x \geq 0 0 x < 0 = ma x (0, x)

ReLU函数示意及后面会介绍的几种变种如下图所示：

在这里插入图片描述

x = np.linspace(-6, 6, 600)
m0 = nn.ReLU()
output0 = m0(torch.Tensor(x))
plt.plot(x, output0, label='RELU')
m1 = nn.LeakyReLU()
output1 = m1(torch.Tensor(x))
plt.plot(x, output1, label='LeakyRELU', color='red', linestyle='--')
m2 = nn.ELU()
output2 = m2(torch.Tensor(x))
plt.plot(x, output2, label='ELU', linestyle='dotted')
m3 = nn.Softplus()
output3 = m3(torch.Tensor(x))
plt.plot(x, output3, label='Softplus', linestyle='-.')

plt.title("ReLu and It's Varies Activation Functions")
plt.xlabel("x")
plt.ylabel("Activation")
plt.grid()
plt.legend()
plt.show()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

ReLU函数的优点是：1. 采用ReLU的神经元只需要进行加、乘和比较的操作，计算上更加高效。2. ReLU函数被认为具有生物学合理性，比如单侧抑制、宽兴奋边界。在生物神经网络中，同时处于兴奋状态的神经元非常稀疏，比如人脑中在同一时刻大概只有 1% ∼ 4% 的神经元处于活跃状态。Sigmoid 型激活函数会导致一个非稀疏的神经网络，而 ReLU 却具有很好的稀疏性，大约 50% 的神经元会处于激活状态．3. 相对于sigmoid函数的两端饱和，ReLU函数为左饱和函数，且在x>0时的导数为1，所以相比之下一定程度上缓解了梯度消失问题，加速梯度下降的收敛速度。

ReLU函数的缺点是：1. 函数输出是非零中心化的，会使其后一层的神经元的输入发生偏置偏移(Bias Shift)，进而使得梯度下降的收敛速度变慢。2. ReLU神经元在训练时比较容易”dead"，如果参数在一次不恰当的更新后，第一个隐藏层中的某个ReLU神经元在所有的训练数据上都不能被激活，那么这个神经元自身参数的梯度永远都会是0，在以后的训练过程中永远不能被激活，这种现象被称为死亡ReLU问题(Dying ReLU Problem)。(其他隐藏层也是有可能发生的)

为了避免ReLU的缺点，有以下几种广泛使用的ReLU变种

Leaky ReLU

Leaky ReLU的公式如下，也就是使输入x<0时，保持一个很小的梯度 $\gamma$ ，使得神经元非激活时也有一个非零的梯度可以更新参数，避免永远不能被激活：
$\begin {aligned} LeakyReLU(x) &=$

{\begin{cases} x x > 0 \\ γ x x \leq 0 \end{cases}

$\begin{cases} x \ \ \qquad x > 0 \\ \gamma x \ \ \qquad x \le 0 \end{cases}$ \\ &= max(0, x) + \gamma min(0,x) \end {aligned}

L e ak y R e LU (x) = {x x > 0 γ x x \leq 0 = ma x (0, x) + γmin (0, x)

\gamma

是一个很小的常数，如0.01。当

\gamma <1

时，Leaky ReLU 也可以写为

\gamma x)

PReLU

PRuLU（Parametric ReLU）引入了一个可学习的参数，不同神经元可以有不同的参数。对第i个神经元的PReLU定义为：
$\begin {aligned} PReLU_i(x) &=$

{\begin{cases} x x > 0 \\ γ_{i} x x \leq 0 \end{cases}

$\begin{cases} x \ \ \qquad x > 0 \\ \gamma_i x \ \ \qquad x \le 0 \end{cases}$ \\ &= max(0, x) + \gamma_i min(0,x) \end {aligned}

PR e L U_{i} (x) = {x x > 0 γ_{i} x x \leq 0 = ma x (0, x) + γ_{i} min (0, x)

其中

\gamma_i

为

\le 0

时函数的斜率，所以PReLU也是非饱和函数。

如果 $\gamma_i=0$ ，PReLU就退化为ReLU。

如果 $\gamma_i$ 是一个很小的常数，则PReLU就可以看作LeakyReLU。

PReLU可以允许不同神经元具有不同的参数，也可以一组神经元共享一个参数。

ELU

ELU（Exponential Linear Unit）的定义如下：
$\begin {aligned} EReLU(x) &=$

{\begin{cases} x x > 0 \\ γ (e x p (x) - 1) x \leq 0 \end{cases}

$\begin{cases} x \ \ \qquad x > 0 \\ \gamma (exp(x) - 1) \ \ \qquad x \le 0 \end{cases}$ \\ &= max(0, x) + min(0,\gamma (exp(x) - 1)) \end {aligned}

ER e LU (x) = {x x > 0 γ (e x p (x) - 1) x \leq 0 = ma x (0, x) + min (0, γ (e x p (x) - 1))

定义中的

\gamma \ge 0

是一个超参数，决定

\le 0

时的饱和曲线，并调整输出均值在0附近，所以ELU是一个近似的零中心化的非线性函数。

SoftPlus

SoftPlus可以看作ReLU函数的平滑版本，其定义为：
$S o f tpl u s (x) = l o g (1 + e x p (x))$
SoftPlus的导数是Sigmoid函数

SoftPlus函数也有与ReLU函数一样的单侧抑制、宽兴奋边界的特性，但没有稀疏激活性。

Maxout

Maxout的输入是上一层神经元的全部原始输出，是一个向量 $\mathbf{x} = [x_1;x_2;\cdots,;x_D]$

每个Maxout单元有K个权重向量 $\mathbf{w}_k \in \mathbb{R}^D$ ( $\mathbf{w}_k = [w_{k, 1}, \cdots, w_{k,D}]^T$ 为第k个权重向量) 和偏置 $b_k(1 \le k \le K)$ ，对于输入 $\mathbf{x}$ ，可以得到K个净输入 $z_k$ ， $\le k \le K$ :
$z_k = \mathbf{w}_k^T x + b_k$
Maxout单元的非线性函数定义为
$maxout(\mathbf{x}) = \max_{k\in[1,K]} (z_k)$
Maxout激活函数可以看做任意凸函数的分段线性近似，并且在有限的点上是不可微的。

Mish

Mish的表达如下式
$\begin{aligned} Mish(x) &=x∗tanh(Softplus(x)) \\ &= x*tanh(ln(1+e^x)) \end {aligned}$
Mish的函数图像如下图

在这里插入图片描述

m1 = nn.Mish()
output1 = m1(torch.Tensor(x))
plt.plot(x, output1, label='Mish')
plt.title("Mish Activation Function")
plt.xlabel("x")
plt.ylabel("Activation")
plt.grid()
plt.legend()
plt.show()
1
2
3
4
5
6
7
8
9

Swish

Swish的定义如下：
$\begin {aligned} swish(x) &= x \sigma(\beta x) \\ &= x \frac{1}{1+exp(-\beta x)} \end {aligned}$
$\sigma$ 是sigmoid函数， $\beta$ 是可学习的参数或者一个固定超参数。 $\sigma(.) \in (0,1)$ 可以看作一种软性的门控机制，当 $\sigma(\beta x)$ 接近于1时，门的状态为“开”状态，激活函数的输出近似于x本身；当 $\sigma(\beta x)$ 接近于0时，门的状态为“关”，激活函数的输出近似于0.

Swish函数的示意图如下图

在这里插入图片描述

x = np.linspace(-6, 6, 600)
m1 = nn.SiLU()
output1 = m1(torch.Tensor(x))
plt.plot(x, output1, label='Swish')
plt.title("Swish Activation Function")
plt.xlabel("x")
plt.ylabel("Activation")
plt.grid()
plt.legend()
plt.show()
1
2
3
4
5
6
7
8
9
10

当 $\beta=0$ 时， Swish函数变成线性函数x/2
当 $\beta=1$ 时， Swish函数在x>0时近似线性，在x<0时近似饱和，同时有一定的单调性
当 $\beta \rightarrow + \infty$ 时， Swish函数近似为ReLU函数

所以Swish函数可以看做线性函数和ReLU函数之间的非线性插值函数，其程度由 $\beta$ 控制

GELU

GELU (Gaussian Error Linear Unit) 也是通过门控机制来调整其输出值的激活函数，其表达式为：
$\le x)$
其中的 $\le x)$ 是高斯分布 $\mathcal{N}(\mu, \sigma^2)$ 的累积分布函数， $\mu$ 和 $\sigma$ 也是超参数，一般取标准分布，即 $\mu=0, \sigma=1$ 。

由于高斯分布的累积分布函数为S型函数，所以它可以用Tanh和Sigmoid函数来近似：
$\approx 0.5x \left( 1 + tanh (\sqrt{\frac{2}{\pi}} (x+0.044715x^3) ) \right) \\ GELU(x) \approx x \sigma(1.702x)$
当用sigmoid函数来近似时，GELU相当于一种特殊的Swish函数。

GELU的示意图如下：

在这里插入图片描述

x = np.linspace(-6, 6, 600)
m1 = nn.GELU()
output1 = m1(torch.Tensor(x))
plt.plot(x, output1, label='GELU')
plt.title("GELU Activation Function")
plt.xlabel("x")
plt.ylabel("Activation")
plt.grid()
plt.legend()
plt.show()
1
2
3
4
5
6
7
8
9
10

大模型gpt3使用GELU激活函数

GLU

Gated Linear Units (GLU) 是在论文《Language Modeling with Gated Convolutional Networks》中被提出来的，计算表达式为：
$\ \otimes \ \sigma(b)$
上式中的 $\sigma$ 是sigmoid函数， $\otimes$ 是矩阵间的按元素乘。

从直觉上来说，对于语言模型门控(gate)机制允许选择对于预测下一个单词更重要的单词或特征。

在论文《GLU Variants Improve Transformer》中下面几种GLU变种被提出。

ReGLU

ReGLU是采用ReLU函数作为激活函数的GLU变体
$\otimes (xV +c)$
JINA EMBEDDINGS 2 对于large版本使用的是ReGLU，其作者说对于大模型使用GEGLU相对没有那么稳定。

SwiGLU

SwiGLU可以看做采用Swish作为激活函数的GLU变体
$Swish_1(xW + b) \otimes (xV +c)$
Meta开源的LLaMA 和 LLaMA2 以及 Baichuan大模型使用的激活函数是SwiGLU。

GEGLU

GEGLU则可以看做采用GELU作为激活函数的GLU变体
$\otimes (xV +c)$

GLM-130B 大模型使用的是GEGLU。

资源

https://www.jiqizhixin.com/articles/2021-02-24-7
邱锡鹏《神经网络与深度学习》
A Survey of Large Language Models
https://zhuanlan.zhihu.com/p/650237644

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/359652