赞
踩
该适用于隧道型曲面,梯度下降法在狭长的隧道型函数上表现不佳,如下图所示
而动量法每次更新都吸收一部分上次更新的余势。这样主体方向的更新就得到了更大的保留,从而效果被不断放大。物理上这就像是推一个很重的铁球下山,因为铁球保持了下山主体方向的动量,所以在隧道上沿两侧震荡测次数就会越来越少。 v t = γ v t − 1 + η