赞
踩
这里新出现了一个变量v ,对应物理上的速度。式(6.3)表示了物体在梯度方向上受力,在这个力的作用下,物体的速度增加这一物理法则。Momentum 方法给人的感觉就像是小球在地面上滚动。
αv:在物体不受任何力时,该项承担使物体逐渐减速的任务(α 设定为 0.9 之类的值),对应物理上的地面摩擦或空气阻力。
初始化时,v 中什么都不保存,但当第一次调用 update() (就是参数更新的一个函数)时,v 会以字典型变量的形式保存与参数结构相同的数据
更新路径就像小球在碗中滚动一样。和 SGD 相比,“之”字形的“程度”减轻了。这是因为虽然 x 轴方向上受到的力非常小,但是一直在同一方向上受力,所以朝同一个方向会有一定的加速。反过来,虽然 y 轴方向上受到的力很大,但是因为交互地受到正方向和反方向的力,它们会互相抵消,所以 y 轴方向上的速度不稳定。因此,和 SGD 时的情形相比,可以更快地朝 x 轴方向靠近,减弱“之”字形的变动程度
感觉不用深究了。。tai nan le!
Adam 是 2015 年提出的新方法。它的理论有些复杂,直观地讲,就是融合了 Momentum 和 AdaGrad 的方法。通过组合前面两个方法的优点,有望实现参数空间的高效搜索。此外,进行超参数的“偏置校正”也是 Adam 的特征。这里不再进行过多的说明,详细内容请参考原作者的论文
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。