线性代数|机器学习-P22逐步最小化一个函数

作者：神奇cpp | 2024-07-11 15:38:49

踩

文章目录

1. 概述
2. 泰勒公式
3. 雅可比矩阵
4. 经典牛顿法
5. 梯度下降和经典牛顿法
- 5.1 线搜索方法
- 5.2 经典牛顿法
6. 凸优化问题
- 6.1 约束问题
- 6.1 凸集组合

Mit麻省理工教授视频如下：逐步最小化一个函数

1. 概述

主要讲的是无约束情况下的最小值问题。涉及到如下：

矩阵求导
泰勒公式，函数到向量的转换
梯度下降
牛顿法梯度下降

2. 泰勒公式

我们之前在高等数学中学过关于f(x)的泰勒展开如下：
定义： $\lim\limits_{x\to a}h_k(x)=0$
$\begin{equation} f(x)=f(a)+f'(a)(x-a)+\frac{f''(a)}{2!}(x-a)^2+\cdots+\frac{f^{(k)}(a)}{k!}(x-a)^k+h_k(x)(x-a)^k \end{equation}$

那么我们只提取二次项， $x+\Delta x \rightarrow x;x\rightarrow a$ 可得如下：
$f (x + Δ x) \approx f (x) + f^{'} (x) Δ x + \frac{f^{″} (x)}{2!} Δ x^{2}$
上面的公式中x为标量，现在我们需要用到向量 x
$a, b$ 均为1维列向量，S为对称矩阵时，我们可得得到如下：
$a^{T} b = c, x^{T} S x = d \to c, d 均为标量$
定义如下：
$x = {[\begin{matrix} x_{1} & x_{2} & \dots & x_{n} \end{matrix}]}^{T}, f = {[\begin{matrix} f_{1} & f_{2} & \dots & f_{n} \end{matrix}]}^{T}$
$f^{'} (x) = \nabla F = {[\begin{matrix} \frac{\partial f}{\partial x_{1}} & \frac{\partial f}{\partial x_{1}} & \dots & \frac{\partial f}{\partial x_{n}} \end{matrix}]}^{T} \to f^{'} (x) Δ x = (Δ x)^{T} \nabla F (x)$
$H_{jk}$ 为hessian matrix具有对称性
$f^{″} (x) = H_{j k} = \frac{\partial^{2} F}{\partial x_{j} \cdot \partial x_{k}} \to \frac{f^{″} (x)}{2!} Δ x^{2} = \frac{1}{2} (Δ x)^{T} H_{j k} (Δ x)$
整理上述公式可得：
$F (x + Δ x) \approx F (x) + (Δ x)^{T} \nabla F (x) + \frac{1}{2} (Δ x)^{T} H_{j k} (Δ x)$

3. 雅可比矩阵

假设有一个m维度向量函数 $\begin{bmatrix}f_1(x)&f_2(x)&\cdots f_m(x)\end{bmatrix}$ [列向量],其中
$\begin{bmatrix}x_1&x_2&\cdots&x_n\end{bmatrix}$ 是一个n维输入向量，雅可比矩阵J是一个 $m\times n$ 的矩阵，其元素由函数的偏导数组成：雅可比矩阵第i行第j列表示的是 $f_i(x)$ 对 $x_i$ 的偏导
$\begin{equation} J_{ij}=\frac{\partial f_i(x)}{\partial x_j} \end{equation}$

本质上就是函数值 $f_i(x)$ 对 $x_i$ 的每个元素求导：
第一步假设 $f_i(x)$ 是常数， $\frac{\partial f_i(x)}{\partial X}$ 为分子布局，遵循标量不变，向量拉伸原则
XY拉伸术，分子布局，X横向拉，Y纵向拉，可得如下：
$\begin{equation} \frac{\partial f_i(x)}{\partial X}= \begin{bmatrix} \frac{\partial f_i(x)}{\partial x_1}& \frac{\partial f_i(x)}{\partial x_2}& \cdots& \frac{\partial f_i(x)}{\partial x_n} \end{bmatrix} \end{equation}$
第二步假设 $f (x)$ 为向量， $\frac{\partial f(x)}{\partial X}$ 为分子布局，遵循标量不变，向量拉伸原则
XY拉伸术，分子布局，X横向拉，Y 纵向拉，可得如下：
$\begin{equation} \mathrm{J}= \begin{bmatrix} \frac{\partial f_1(x)}{\partial x_1}&\frac{\partial f_1(x)}{\partial x_2}&\cdots&\frac{\partial f_1(x)}{\partial x_n}\\\\ \frac{\partial f_2(x)}{\partial x_1}&\frac{\partial f_2(x)}{\partial x_2}&\cdots&\frac{\partial f_2(x)}{\partial x_n} \\\\ \vdots&\vdots&\cdots&\vdots\\\\\ \frac{\partial f_m(x)}{\partial x_1}&\frac{\partial f_m(x)}{\partial x_2}&\cdots& \frac{\partial f_m(x)}{\partial x_n} \end{bmatrix} \end{equation}$
泰勒公式1阶展开可得：
$\begin{equation} f(x+\Delta x)=f(x)+f'(x)\Delta x \end{equation}$
转换成雅可比矩阵可得：
$\begin{equation} f(x+\Delta x)=f(x)+\mathrm{J}_{jk}\Delta x;\mathrm{J}_{jk}=\frac{\partial f_j(x)}{\partial x_k} \end{equation}$

4. 经典牛顿法

4.1 经典牛顿法理论

我们已经知道了函数的二阶泰勒展开表示如下：
$\begin{equation} F(x+\Delta x)\approx F(x)+(\Delta x)^T \nabla F(x)+\frac{1}{2}(\Delta x)^T H_{jk}(\Delta x) \end{equation}$

一般如果在 $x^*$ 处取得最小值，那么其导数为0；现在我们求导可得：
$\frac{d F (x)}{d Δ x} = 0; \frac{(Δ x)^{T} \nabla F (x)}{d Δ x} = \nabla F (x); \frac{d \frac{1}{2} (Δ x)^{T} H_{j k} (Δ x)}{d Δ x} = H_{j k} Δ x;$
$\frac{d F (x + Δ x)}{d Δ x} = 0 + \nabla F (x) + H_{j k} Δ x = 0$
当 $H_{jk}=\mathrm{J}_{jk}$ 可逆时， $\Delta x=x_{k+1}-x_k$ 可得：
$- [H_{j k}]^{- 1} \nabla F (x) = x_{k + 1} - x_{k} \to x_{k + 1} = x_{k} - [J_{j k}]^{- 1} \nabla F (x)$
我们定义 $\nabla F(x)=f(x_k)$ , $\mathrm{J}_{jk}=\mathrm{J}_{x_k}$
$x_{k + 1} = x_{k} - [J_{x_{k}}]^{- 1} f (x_{k})$

4.2 牛顿迭代法解求方程根

已知： $f(x)=x^2-9=0$ ，用牛顿迭代的方法求解方程的根
根据迭代公式可得： $f'(x)=\mathrm{J}_{x_k}=2x,f(x_k)=x_k^2-9$
$x_{k + 1} = x_{k} - [J_{x_{k}}]^{- 1} f (x_{k}) \to x_{k + 1} = x_{k} - \frac{f (x_{k})}{J_{x_{k}}}$
整理可得：
$x_{k + 1} = x_{k} - \frac{x_{k}^{2} - 9}{2 x_{k}} = \frac{1}{2} x_{k} + \frac{9}{2 x_{k}}$
收敛依据：
判断新的近似值 $x_{k+1}$ 与当前值 $x_k$ 之间的差距是否小于某个值 $\epsilon=10^{-10}$ ，如果小于该值则认为收敛，否则继续迭代。
我们先设置初始值 $x_0=2$ 可得 $x_1$ ：
$x_{1} = \frac{1}{2} x_{0} + \frac{9}{2 x_{0}} = 3.25;$
继续迭代得 $x_2$
$x_{2} = \frac{1}{2} x_{1} + \frac{9}{2 x_{1}} = 3.0096153846153846;$
继续迭代得 $x_3$
$x_{3} = \frac{1}{2} x_{2} + \frac{9}{2 x_{2}} = 3.000015360039322 ；$
继续迭代得 $x_4$
$x_{4} = \frac{1}{2} x_{3} + \frac{9}{2 x_{3}} = 3.0000000000393214 ；$
可得 $x^2-9=0$ 的解为 $x_1^*=3$ ,同理初始化为 $x_0=-2$ 可得 $x_2^*=-3$

4.3 牛顿迭代法解求方程根 Python

代码： Python代码如下：

def newton_raphson(f, f_prime, x0, tol=1e-10, max_iter=100):
    x = x0
    for i in range(max_iter):
        fx = f(x)
        fpx = f_prime(x)

        # Newton-Raphson iteration
        x_new = x - fx / fpx

        print(f"Iteration {i + 1}: x = {x_new}")

        if abs(x_new - x) < tol:
            return x_new
        x = x_new

    raise ValueError("Newton-Raphson method did not converge")


# Define the function and its first derivative
f = lambda x: x ** 2 - 9
f_prime = lambda x: 2 * x

# Initial guesses
initial_guesses = [2, -2]

# Find the roots
for x0 in initial_guesses:
    root = newton_raphson(f, f_prime, x0)
    print(f"The root starting from {x0} is: {root}")
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

运行结果：

Iteration 1: x = 3.25
Iteration 2: x = 3.0096153846153846
Iteration 3: x = 3.000015360039322
Iteration 4: x = 3.0000000000393214
Iteration 5: x = 3.0
The root starting from 2 is: 3.0
Iteration 1: x = -3.25
Iteration 2: x = -3.0096153846153846
Iteration 3: x = -3.000015360039322
Iteration 4: x = -3.0000000000393214
Iteration 5: x = -3.0
The root starting from -2 is: -3.0
1
2
3
4
5
6
7
8
9
10
11
12

5. 梯度下降和经典牛顿法

对于无约束问题的梯度下降，我们一般有两种方法：

5.1 线搜索方法

运用泰勒一阶信息，迭代方向为负梯度方向：

迭代方程：
$x_{k + 1} = x_{k} + α_{k} p_{k}$
方向 $p_k$ ：负梯度方向 $-\nabla F$
步长： $\alpha_k=s_k$ ，深度学习中叫学习率
更新后的方程如下：
$x_{k + 1} = x_{k} - s_{k} \nabla F$

5.2 经典牛顿法

运用泰勒二阶信息，迭代方向为牛顿方向：迭代步长为 $\alpha_1=1$

迭代方程为,hessian matrix-> $H_{jk}$ 可逆：
$x_{k + 1} = x_{k} - [H_{j k}]^{- 1} \nabla F (x)$
经典牛顿法为二次性收敛，速度非常快，具体分析请参考如下博客
[优化算法]经典牛顿法

6. 凸优化问题

6.1 约束问题

我们定义凸函数为 $f (x)$ ，凸集为 $\mathrm{K}$ ,我们的目的是为了求得凸函数 $f (x)$ 的最小值
$\begin{equation} \min\limits_{x\in K} f(x)， \mathrm{K}:Ax=b \end{equation}$

$f (x)$ 表示的是所有在碗内部上的和碗内表面上的点
求的是在碗内表面的上的最小值，碗的形状就是约束条件 $A x = b$

6.1 凸集组合

如果 $x_1,x_2$ 均在凸集里面，则由 $x_1,x_2$ 组成的直线L在凸集里面
如果 $x_1,x_2$ 分别在不同的凸集里面，则由 $x_1,x_2$ 组成的直线L不在凸集里面
小结：合并图集里面组合的直线不在凸集里面。
如果 $x_1,x_2$ 都在不同的凸集里面的交集里面，则由 $x_1,x_2$ 组成的直线L在凸集中
假设我们有两个凸函数 $F_1(x),F_2(x)$ ,我们定义如下：
$min (x) = min [F_{1} (x), F_{2} (x)]; max (x) = max [F_{1} (x), F_{2} (x)];$
如果两个凸集相交，那么相交的凸集最大值，最小值如下：
$min (x) = min [F_{1} (x), F_{2} (x)] - > 非凸； max (x) = max [F_{1} (x), F_{2} (x)] - > 凸;$
凸函数判断
$\frac{d^{2} f (x)}{d x^{2}} \geq 0$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/810750