赞
踩
牛顿法是一种经典的优化算法,本文主要介绍牛顿法的基本原理。
定义一元函数:,考虑等式:, 通过线性近似可获得牛顿法的更新规则。
假设已知靠近最优解,在处对函数做一阶泰勒展开有:
,
则可近似为:
。
若将该方程看作一个系统,则可将其称为牛顿系统。在某些条件下,若将视作最优的近似,则有:
, (1)
式(1)即为牛顿法的更新规则,该方案可进一步扩展至寻找非线性方程组(非线性系统)的解。
定义非线性方程组:, 其中,,。
与一元函数类似,构建牛顿系统:
,
式中,可视为Jacobian矩阵,若该矩阵满秩(不退化),则可表示为:
, (2)
因此,相应的迭代规则可表示为:
。 (3)
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
上述牛顿法的基本原理可进一步推广至求无约束最小化问题。即想通过来求解极值的问题。
与一元函数时类似,在非退化情况下,如果想通过来求解非线性系统,利用牛顿法可构建如下牛顿系统:
,
该式可进一步写为:
(4)
如果想通过二阶泰勒近似来获得式(4)中的结果应该如何操作呢?
假设给定非线性函数,在处的二阶泰勒可近似为:
,
若(Hessian矩阵正定),为函数的一个极小值,对求导有:
,
对该式进行整理即可得出式(4)中的结果。
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------
接下来介绍一个简单的例子来说明牛顿法的特点:
例:考虑一元函数:
\phi(t)=\frac{t}{\sqrt{1+t^2},
显然,该函数的根。
其一阶导为:
,
式(1)可表达为:
。
因此,若初始位置,则牛顿法可快速收敛至;
若,此时牛顿法将一直振荡,无法收敛;
若,此时牛顿法将发散。
----------------------------------------------------------------------------------------------------------------------------------------------------------------------
总结:
牛顿法在最优点附近收敛很快,但其存在两个缺点:
1)牛顿法要求是非退化的,在实际应用中,这一条件往往不容易满足;
2)牛顿法很容易受到初始位置的影响,不理想的初始条件可能会导致牛顿法发散;
参考文献:Yurii Nesterov, Lectures on Convex Optimization,2010.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。