赞
踩
李沐《动手学深度学习》线性神经网络 线性回归
李沐《动手学深度学习》优化算法(相关概念、梯度下降法、牛顿法)
李沐《动手学深度学习》优化算法(经典优化算法)
先设定一个学习率
η
\eta
η,参数沿着梯度的反方向移动。假设需要更新的参数为
w
w
w,梯度为
g
g
g,则梯度下降法的更新策略为:
w
←
w
−
η
∗
g
w\leftarrow w-\eta * g
w←w−η∗g
李沐《动手学深度学习》中对于随机梯度下降法的阐释:
优点:
缺点:
更优的优化算法从梯度方面和学习率方面对参数更新方式进行优化。
每一步更新都是由前面梯度的累计v和当前梯度g组合而成,进而使得参数的更新具有惯性。
α \alpha α为动量参数, v v v是动量, η \eta η是学习率
Adagrad的关键就是对于不同的参数,会设置不同的学习率
主要思想: 根据每个参数在训练过程中的历史梯度信息来调整学习率,从而使得每个参数的学习率可以自适应地调整,更好地适应不同参数的特性。
特点: 对每个参数的学习率进行适应性调整,使得在训练过程中梯度较大的参数的学习率变小,而梯度较小的参数的学习率变大。
计算方式:
RMSProp全称为root mean square propagation均方根传播。
RMSProp算法是在AdaGrad算法的基础上,进一步在学习率的方向上进行优化: AdaGrad算法中,由于历史梯度的累积可能会导致学习率不断减小,从而影响算法的收敛速度。RMSProp通过引入一个衰减系数 λ \lambda λ来解决这个问题,从而使得学习率的衰减更加平缓,提高了算法的稳定性和收敛速度。
Adam算法是一种用于优化神经网络训练的自适应学习率优化算法。它结合了动量梯度下降和自适应学习率方法的优点,具有广泛的应用和高效的性能。
在Grandient Descent的基础上,Adam的改进包括:
在上述3点改进的基础上,* 权重更新: w ← w − η r ^ + δ ∗ v ^ w\leftarrow w-\frac{\eta}{\sqrt{\hat{r}+\delta}}*\hat{v} w←w−r^+δ η∗v^
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。