赞
踩
通过使用 θ t + 1 = θ t − a t ∇ f ( θ t ) \theta_{t+1}=\theta_{t}-a_t\nabla f(\theta_t) θt+1=θt−at∇f(θt)
Learning rate的设置:Learning rate设置不合理会影响最终生成的答案。如果LR太大则可能会跨越,太小可能会计算速度变慢。如下图所示
初始值的设置:初始值设置不合理会影响最终生成的答案。如图下图所示
就上图而言如何逃离最小值呢?可以引入惯性,可以变换到其他位置,如图所示:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。