当前位置:   article > 正文

DeepLearning.ai 深度学习课程 笔记 V5.61_ebvi5.6 deep learning

ebvi5.6 deep learning

黄博的针对吴恩达老师深度学习课程(deeplearning.ai) 视频做的笔记
今日学习第二门课第二周,大有收获,再接再厉
记录一下要点:

1. batch gradient descent与mini gradient descent相比,在样本量不超过两千的情况下,可不分批,如分批,数据量可在64-512或者128(2的n次方,更快)左右。

2. mini batch = 1 的时候,为随机梯度下降,到最优点附近徘徊,可缩小学习率

3. 指数加权平均数,对一段时间内的数据进行平均(看起来像是平滑),越往前的权重越低,并且展开后呈指数形式,故得名

4. 偏差修正,因为指数加权平均以0开始,所以前几天(项)可能误差较大,故除以(1-beta_power_t),beta是接近小于1的数,前几项的时候分母较小,可以提高前几项的值,而t很大的时候,分母接近1,近似于无,可参考笔记189页底部。

5. 动量梯度下降:

在这里插入图片描述

6. RMSprop:

在这里插入图片描述

7. 重头戏,Adam,同时应用momentum和RMSprop:

在这里插入图片描述
以上三项,懂即可,不用花时间再看

8. 学习率衰减,方式很多:

在这里插入图片描述在这里插入图片描述

9.最后这个局部最优问题:很重要,其实网络较大,参数维数较多的时候不必考虑极差的局部最优点,因为要求每一维都是最小点的概率远远小于鞍点的可能性,故局部最优不是问题,而鞍点的平稳段会减缓学习速率才是问题, momentum或者Adam算法等可以加快学习走出平稳段。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/346979
推荐阅读
相关标签
  

闽ICP备14008679号