线性代数|机器学习-P23梯度下降

作者：煮酒与君饮 | 2024-07-13 11:43:20

踩

线性代数|机器学习-P23梯度下降

文章目录

1. 梯度下降
- 1.1 线搜索方法，运用一阶导数信息[线搜索方法]
- 1.2 经典牛顿方法，运用二阶导数信息
2. hessian矩阵和凸函数
- 2.1 实对称矩阵函数求导
- 2.2. 线性函数求导
3. 无约束条件下的最值问题
4. 正则化
- 4.1 定义
- 4.2 性质
5. 回溯线性搜索法

1. 梯度下降

1.1 线搜索方法，运用一阶导数信息[线搜索方法]

迭代公式：
$x_{k + 1} = x_{k} - s_{k} \nabla f (x_{k})$
步长： $s_k$ ，也叫学习率
方向： $-\nabla f(x_k)$ 负梯度方向

1.2 经典牛顿方法，运用二阶导数信息

详细推导请点击链接

迭代公式：
$x_{k + 1} = x_{k} - [H_{j k}]^{- 1} \nabla f (x)$
步长： $s_k=1$ ，把步长和方向结合起来放到方向里面去了。
方向： hessian matrix 可逆时 $[H_{jk}]^{-1}\nabla f(x)$

2. hessian矩阵和凸函数

如果hessian matrix $H_{jk}$ 是半正定矩阵[positive semi-definite]或正定矩阵[positive definite]可得为函数是一般凸函数
如果hessian matrix $H_{jk}$ 是正定矩阵[positive definite]可得为函数是强凸函数

2.1 实对称矩阵函数求导

假设我们有一个实对称矩阵S和二次型函数表示如下：

S = [\begin{matrix} 1 & 0 \\ 0 & b \end{matrix}], f (x) = \frac{1}{2} x^{T} S x = \frac{1}{2} (x^{2} + b y^{2})

$\begin{equation} S=\begin{bmatrix}1&0\\\\0&b\end{bmatrix},f(x)=\frac{1}{2}x^TSx=\frac{1}{2}(x^2+by^2) \end{equation}$

S = 10 0 b, f (x) = \frac{1}{2} x^{T} S x = \frac{1}{2} (x^{2} + b y^{2})

矩阵S的特征值,条件数 $\kappa(S)$ 分别表示如下,假设 $b < 1$ ：
$λ_{max} = 1, λ_{min} = b, κ (S) = \frac{1}{b}$
通过 $f (x)$ 函数可以明显看出最小值点为(0,0)
$\begin{equation} \argmin \limits_{x^*=0}f(x)=0 \end{equation}$
函数一阶导数如下：
$\frac{d f (x, y)}{d X} = \frac{d \frac{1}{2} X^{T} S X}{d X} = S X = [\begin{matrix} 1 & 0 \\ 0 & b \end{matrix}] [\begin{matrix} x \\ y \end{matrix}] = [\begin{matrix} x \\ b y \end{matrix}]$
函数二阶导数如下：
$\frac{d^{2} f (x, y)}{d X^{2}} = S = [\begin{matrix} 1 & 0 \\ 0 & b \end{matrix}]$

2.2. 线性函数求导

假设我们有如下函数：

f (x, y) = 2 x + 5 y = [\begin{matrix} 2 & 5 \end{matrix}] [\begin{matrix} x \\ y \end{matrix}] = A^{T} X, A = [\begin{matrix} 2 \\ 5 \end{matrix}]

$\begin{equation} f(x,y)=2x+5y=\begin{bmatrix}2&5\end{bmatrix}\begin{bmatrix}x\\\\y\end{bmatrix}=A^TX,A=\begin{bmatrix}2\\\\5\end{bmatrix} \end{equation}$

f (x, y) = 2 x + 5 y = [25] x y = A^{T} X, A = 25

函数的一次导数如下：
$\frac{d f (x, y)}{d X} = \frac{d A^{T} X}{d X} = A = [\begin{matrix} 2 \\ 5 \end{matrix}]$
函数的二阶偏导 hessian matrix 如下：[向量对向量求导，XY拉伸术]
$H_{j k} = [\begin{matrix} 0 & 0 \\ 0 & 0 \end{matrix}]$
对于函数 $f (x) = 2 x + 5 y$ 来说，依据线搜索方法，其负梯度方向为最佳迭代方向。

3. 无约束条件下的最值问题

假设我们有一个函数表示如下：

f (x) = \frac{1}{2} x^{T} S x - a^{T} x - b

$\begin{equation} f(x)=\frac{1}{2}x^TSx-a^Tx-b \end{equation}$

f (x) = \frac{1}{2} x^{T} S x - a^{T} x - b

$f (x)$ 导数如下：
$\frac{d f (x)}{d x} = S x - a; \frac{d^{2} f (x)}{d x^{2}} = H_{j k} = S$
函数 $f (x)$ 的最小值满足其一次导数为零，即表示如下：
$f^{'} (x^{*}) = 0, S x^{*} - a = 0 \to x^{*} = S^{- 1} a$
整理可得：
$f_{min} (x) = min_{x = x^{*} = S^{- 1} a} f (x) = - \frac{1}{2} a^{T} S^{- 1} a - b$
$\begin{equation} \argmin\limits_{x=x^*}f(x)=S^{-1}a \end{equation}$

4. 正则化

4.1 定义

Log-determinant regularization
Log-determinant regularization 通过在损失函数中加入一个负对数行列式项来约束矩阵X的结构。具体形式为
$P e n a l t y = - \log (det (X))$
其中X通常是一个正定矩阵，这一正则化项有利于确保X的特征值远离零，从而避免数值不稳定性和病态矩阵的出现

4.2 性质

凸性： $-\log(\det(X))$ 是一个凸函数，这意味着优化问题中，局部最小值也是全局最小值
梯度： $\nabla f(x)=-X^{-1}$
$f (x) = - \log (det (X)) \to \frac{d f (x)}{d x} = \frac{1}{det (X)} \cdot [det (X) \cdot (X^{- 1})^{T}] = X^{- 1}$
hessian matrix：
$H_{j k} = X^{- 1} H X^{- 1} ， H 是一个对称矩阵$

5. 回溯线性搜索法

对于线搜索方法来说，迭代公式如下，但是对于步长的选择来说，我们如果选择步长 $s_k$ 太大，那么就很容易越过极值点，在极值点不断跳跃和震荡，如果步长 $s_k$ 太小，那么迭代太慢，没有效果

迭代公式：
$x_{k + 1} = x_{k} - s_{k} \nabla f (x_{k})$
步长： $s_k$
方向：负梯度方向 $-\nabla f(x_k)$

那么我们希望找到一个步长 $s_k$ 使得在搜索方向上使得 $f(x_{k+1})$ 最小，这样就不是固定步长了，相当于动态步长

\begin{equation} s_k^*= \argmin\limits_{s_k} f(x_{k+1}) \end{equation}

$\begin{equation} s_k^*= \argmin\limits_{s_k} f(x_{k+1}) \end{equation}$

s_{k}^{*} = s_{k} arg min f (x_{k + 1})

步骤：先固定步长 $s_k=s_0$ ，再取半步长 $s_k=\frac{1}{2}s_0$ ,再取半步长 $s_k=\frac{1}{4}s_0$ ,
假设我们有如下一个损失函数如下：
$S = [\begin{matrix} 1 & 0 \\ 0 & b \end{matrix}], f (x) = x^{T} S x = x^{2} + b y^{2}$
迭代公式如下：
$x_{k + 1} = x_{k} - s_{k} \nabla f (x_{k}), \nabla f (x_{k}) = 2 S x$
向量化如下 : $x\;=[x\;,y\;]^T$
${[\begin{matrix} x \\ y \end{matrix}]}_{k + 1} = {[\begin{matrix} x \\ y \end{matrix}]}_{k} - s_{k} {[\begin{matrix} 2 x \\ 2 b y \end{matrix}]}_{k}$
假设我们定义初始点 $p_0=(x_0,y_0)=(b,1)$
步长 $s_k=\frac{1}{x_0+y_0}=\frac{1}{b+1}$ 这里没弄懂，后续再研究，反推出来的
$x_{k} = b (\frac{b - 1}{b + 1})^{k}, y_{k} = (\frac{1 - b}{1 + b})^{k}, f_{k} = (\frac{1 - b}{1 + b})^{k} f_{0}$
函数 $f(x)=x^2+by^2=c$ 是一个椭圆形图像，随着c的变化不断变化,也就是做函数的最小值是之字型不断地趋近于最小，就像不同的椭圆进行等比缩小，最终求得最小值。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/煮酒与君饮/article/detail/819264