当前位置:   article > 正文

深度学习-优化策略

深度学习-优化策略

1.使用众所周知的梯度下降法。

(1).批量梯度下降法:每次参数更新使用所有的样本(2).随机梯度下降法:每次参数更新只使用一次样本(3).小批量梯度下降法:每次参数更新使用小部分数据样本

优点:算法简洁,当学习率值恰当时,可以收敛到全局最优点或局部最优点。

缺点:对于超参数比较敏感:过小导致收敛速度过慢,过大容易越过极值点;无法实时修改学习率,容易出现在鞍点上,处于局部最大值;且求导时要对整个数据集进行求导,计算量很大;且容易达到局部最优点,无法继续优化。

2.随机梯度下降法,在梯度下降上做了优化,优点是:计算量小,因为只需要对一个训练数据进行求导。缺点:无法调整学习率,容易发生震荡,收敛慢,容易出现在鞍点上,处于局部最大值。

3.动量法momentum,优点:加上了原始动量(梯度累积)且对于变量给了参数,给了一种惯性,使得其在正确的方向上,下降更快,而且容易跳出局部最小点。更具有鲁棒性,使得训练过程更加平稳。缺点:容易出现在鞍点上,处于局部最大值。

更新的时候用的不再是梯度,而是参数的动量值。

以上是对梯度做文章,

4.adagrad(自适应学习率优化器)

对于不同的参数设置不同的学习率,

使用累计平方梯度来计算新的学习率(让其作为平方根,且为分母)这样就能在梯度与学习率相乘的时候能够自适应。

优点:可以自适应的调整学习率,不同量级的参数能更好的收敛(使得梯度大的学习率变小,使得梯度乘以学习率后为一个可以接受的值,能够减少震荡)。

5.RMSProp

优点:给累计梯度增加了参数,学习率进一步优化,给累计梯度和和当前梯度增加参数,计算公式不变。

以上是对学习率做文章

6.adam

缝合怪,集中了以上所有的优点,在梯度方面增加了momentum,使用累计梯度。同时在学习率上能够自适应使用RMSProp的优点。其中的参数均为超参数,需要自己去调整。最后使用了偏差纠正,起初的时候累计梯度和累计平方梯度都是属于0,而参数会接近于一,那么当t较小时,可能会偏向于0。那么就需要做偏差矫正。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/468767
推荐阅读
相关标签
  

闽ICP备14008679号