常用梯度下降算法SGD, Momentum, RMSprop, Adam详解_sgdmox

作者：空白诗007 | 2024-07-26 18:30:20

踩

sgdmox

摘要

本文给出常用梯度下降算法的定义公式, 并介绍其使用方法.

正文

1. SGD

随机梯度下降 (Stochastic Gradient Descent) 是最基础的神经网络优化方法.

Stochastic 一词是随机的意思, 表示每次都随机选择样本计算损失值和梯度, 进行参数更新.

随机选择样本非常重要, 主要是为了避免模型参数在某种潜在错误方向上走的过远, 导致收敛速度过慢.

1.1 算法定义

SGD 参数更新的算法 :
$p = p - l r * g$

1.2 使用方法

假设一个神经网络模型经过 $n$ 次反向传播, 使用向量 $g$ 表示所有求得的梯度, 初始参数为 $p_0$ , 求学习完成后的参数值 $p_n$ .
$(g_1,g_2,g_3,\cdots,g_n)$
求解过程 :
$p_1 = p_0 - lr * g_1\\ p_2 = p_1 - lr * g_2\\ p_3 = p_2 - lr * g_3\\ \vdots\\ p_n = p_{n-1} - lr * g_{n}\\$

2. Momentum SGD

Momentum SGD 是基于动量的算法.

2.1 算法定义

Momentum SGD 参数更新的算法 :
$\\ p = p - lr * v$

其中 p, g, v 和 m 分别表示参数, 梯度, 速度和动量.
另外一种定义是 :
$\\ p = p - v$

本文使用前一种算法, 也是 PyTorch 推荐使用的算法.

Momentum SGD 的必要参数是动量 m, 一般取 $m = 0.9$

注意, 若 $m = 0$ , Momentum SGD 将退化成 SGD 算法.

2.2 使用方法

假设一个神经网络模型经过 $n$ 次反向传播, 使用向量 $g$ 表示所有求得的梯度, 初始参数为 $p_0$ , 初始速度为 0, 动量参数为 $m$ , 学习率为 $l r$ , 求学习完成后的参数值 $p_n$ .

求解过程 :
$v_1 = g_1, \;\;p_1 = p_0 - lr * v_1\\ v_2 =m * v_1 + g_2, \;\;p_2 = p_1 - lr * v_2\\ v_3 =m * v_2 + g_3, \;\;p_3 = p_2 - lr * v_3\\ \vdots\\ v_n =m * v_{(n-1)} + g_n, \;\;p_n = p_{(n-1)} - lr * v_{(n)}\\$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/空白诗007/article/detail/886643