当前位置: article > 正文

神经网络中的优化方法

作者：繁依Fanyi0 | 2024-08-11 21:55:26

踩

神经网络中的优化方法

前言

在之前的文章中介绍了神经网络中的损失函数。有了损失函数之后，就要求损失函数的最小值，并且需要求出参数（这个参数可能是神经网络中的 $W$ 或 $b$ ）在取什么值时，损失函数才能取到最小值。那么这个就是优化方法做的事情。这篇文章就来介绍一下神经网络中的优化方法。

梯度下降法

方法介绍

梯度下降法是一个非常简单的优化方法，也是后面要介绍的其它优化方法的基础。梯度下降法奠定了后来优化方法的基础，可以说，后面的大多数优化方法本质上都是在梯度下降法上进行修改得到的。

假设 $g$ 是我们求得的梯度（可能是一维的，也可能是高维的，取决于参数个数）， $\eta$ 是我们人为设置的学习率（是一个超参数）， $\theta$ 是我们需要更新的参数（不一定是一个参数，可能是多个参数组成的向量）。

梯度下降法的公式为 $\theta=\theta-\eta\cdot g$

这个公式其实也很好理解，就是一个不断迭代的过程，不断往梯度下降的方向走，直到走到梯度为0的点，也就是最小值点。

方法优缺点

优点

算法简洁，在学习率取值恰当时，可以收敛到全局最优点（凸函数）或局部最优点（非凸函数）。

缺点

对超参数比较敏感，过小导致收敛速度过慢，过大又会越过极值点。

学习率除了敏感，有时还会因其在迭代过程中保持不变，很容易造成算法卡在鞍点的位置。

在较平坦的区域，由于梯度接近于0，优化算法会因误判，在还未到达极值点时，就提前结束迭代，陷入局部最小值。

动量法

方法介绍

动量法又称Momentum。

公式为

{\begin{cases} v = α v + (1 - α) g \\ θ = θ - η \cdot v \end{cases}

$\begin{cases} v=\alpha v+(1-\alpha)g\\ \theta=\theta-\eta\cdot v \end{cases}$

{v = αv + (1 - α) g θ = θ - η \cdot v

其中 $\alpha$ 表示动量参数， $v$ 表示累计梯度。跟梯度下降法相比，这里用 $v$ 代替了 $g$ 。 $g$ 仅仅表示当前这一点处的梯度，而 $v$ 表示了之前所有梯度的加权平均，而且迭代次数越靠后，其权重越高。这里的 $v$ 也可以看成动量，与经典物理学中的动量是一致的，就像从山上投出一个球，在下落过程中收集动量，小球的速度不断增加。

优缺点

优点

能帮助参数在正确的方向上加速前进，从而加速收敛。

由于动量具有惯性，所以可以跳出局部最小值。

更具有鲁棒性，使我们的训练过程更加稳定。

缺点

动量法的效果受动量因子和学习率等参数的影响较大。这些参数的选择需要一定的经验和调试，不当的参数设置可能导致算法性能下降。

Adagrad

方法介绍

Adagrad优化算法被称为自适应学习率优化算法。核心思想是为每个参数维护一个独立的学习率，并根据历史梯度信息动态调整学习率。跟其它方法的主要区别在于学习率并不是一个人为设置的定值，而是可以根据实际情况自动实时调整的。

公式为

{\begin{cases} r = r + g^{2} \\ θ = θ - \frac{η}{\sqrt{r + δ}} \cdot g \end{cases}

$\begin{cases} r=r+g^2\\ \theta=\theta-\frac{\eta}{\sqrt{r+\delta}}\cdot g \end{cases}$

{r = r + g^{2} θ = θ - \frac{η}{r + δ} \cdot g

其中 $\delta$ 为小参数，避免分母为0，一般取值为 $10^{-10}$ 。

Adagrad的核心想法就是，如果一个参数的梯度一直都非常大，那么其对应的学习率就小一点，防止震荡；而一个参数的梯度一直都非常小，那么这个参数的学习率就大一点，使得其能够更快地更新。这就是Adagrad算法加快深层神经网络训练速度的核心。

优缺点

优点

自适应学习率使得不需要手动调整学习率。

更适合处理稀疏数据。由于稀疏特征在数据集中出现频率低，其梯度值往往较小。在Adagrad算法中，这些特征对应的学习率不会因为梯度小而迅速减小，反而能够保持相对较大的学习率，从而得到更多的更新机会。这对于模型捕捉稀疏特征的信息非常有利。

缺点

学习率 $\eta$ 总是在降低和衰减，使得后期学习率太低导致模型完全停止学习。

RMSProp

RMSProp的全称是Root Mean Square Propagation，均方根传播。该方法在Adagrad的基础上，进一步在学习率的方向上优化。

公式为

{\begin{cases} r = λ r + (1 - λ) g^{2} \\ θ = θ - \frac{η}{\sqrt{r + δ}} \cdot g \end{cases}

$\begin{cases} r=\lambda r+(1-\lambda )g^2\\ \theta=\theta-\frac{\eta}{\sqrt{r+\delta}}\cdot g \end{cases}$

{r = λ r + (1 - λ) g^{2} θ = θ - \frac{η}{r + δ} \cdot g

其中， $\lambda$ 为衰减系数， $r$ 为累计平方梯度。

衰减系数的引入克服了Adagrad方法中， $r$ 一直增大的缺点。

Adam

方法介绍

Adam算法即自适应时刻估计方法（Adaptive Moment Estimation）。Adam继承了上面方法的优点，同时又规避了很多缺点，是目前神经网络中使用最广泛的优化方法。

公式为 ${ v = β 1 v + ( 1 − β 1 ) g r = β 2 r + ( 1 − β 2 ) g 2 v ^ = v 1 − β 1 t r ^ = r 1 − β 2 t θ = θ − η r ^ + δ ⋅ v ^$

{\begin{cases} v = β_{1} v + (1 - β_{1}) g \\ r = β_{2} r + (1 - β_{2}) g^{2} \\ \hat{v} = \frac{v}{1 - β_{1}^{t}} \\ \hat{r} = \frac{r}{1 - β_{2}^{t}} \\ θ = θ - \frac{η}{\sqrt{\hat{r} + δ}} \cdot \hat{v} \end{cases}

$\begin{cases} v=\beta_1 v+(1-\beta_1)g\\ r=\beta_2 r+(1-\beta_2 )g^2\\ \widehat{v}=\frac{v}{1-\beta_1^t}\\ \widehat{r}=\frac{r}{1-\beta_2^t}\\ \theta=\theta-\frac{\eta}{\sqrt{\widehat{r}+\delta}}\cdot \widehat{v} \end{cases}$

⎩ ⎨ ⎧ v = β_{1} v + (1 - β_{1}) g r = β_{2} r + (1 - β_{2}) g^{2} v = \frac{v}{1 - β _{1}^{t}} r = \frac{r}{1 - β _{2}^{t}} θ = θ - \frac{η}{r + δ} \cdot v

可以在这里面看到许多其它方法的影子。第一行公式来源于动量法，第二行公式来源于RMSProp，第五行公式来源于梯度下降法。

第三行和第四行公式是修正公式，在这里进行一个简单的说明。这里的 $t$ 代表迭代次数。由于一开始设置的 $v$ 和 $r$ 都是0，所以在开始的时候， $v$ 和 $r$ 为了能更好地代表加权平均值，使得系数和为1，就需要做一个这样的处理。当迭代轮数增大时，这两个公式的分母趋近于1，就可以忽略不计了。

优缺点

优点

在实际应用中，Adam方法效果良好。与其他自适应学习率算法相比，其收敛速度更快，学习效果更为有效，而且可以纠正其他优化技术中存在的问题，如学习率消失、收敛过慢或是高方差的参数更新导致损失函数波动较大等问题。

缺点

虽然避免了手动调整学习率，但是又引入了动量参数 $\beta_1$ 和衰减参数 $\beta_2$ 两个超参数。我们一般设置 $\beta_1=0.9,\beta_2=0.999$ ，但在有些情况下，这可能不是最好的选择。

AdamW

AdamW就是在Adam的基础上加上了权重衰减（Weight Decay）。

公式为 ${ v = β 1 v + ( 1 − β 1 ) g r = β 2 r + ( 1 − β 2 ) g 2 v ^ = v 1 − β 1 t r ^ = r 1 − β 2 t θ = θ − η r ^ + δ ⋅ v ^ − r λ θ$

{\begin{cases} v = β_{1} v + (1 - β_{1}) g \\ r = β_{2} r + (1 - β_{2}) g^{2} \\ \hat{v} = \frac{v}{1 - β_{1}^{t}} \\ \hat{r} = \frac{r}{1 - β_{2}^{t}} \\ θ = θ - \frac{η}{\sqrt{\hat{r} + δ}} \cdot \hat{v} - r λ θ \end{cases}

⎩ ⎨ ⎧ v = β_{1} v + (1 - β_{1}) g r = β_{2} r + (1 - β_{2}) g^{2} v = \frac{v}{1 - β _{1}^{t}} r = \frac{r}{1 - β _{2}^{t}} θ = θ - \frac{η}{r + δ} \cdot v - r λ θ

该方法引入了超参数 $\lambda$ 。权重衰减的思想是每次更新参数后都对参数减去一个很小的值，防止参数过大，提高模型的泛化性。大名鼎鼎的BERT模型使用的优化方法就是AdamW。

总结

以上几种方法之间其实有一定的继承性，其关系由下图体现。
优化器

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/966291