机器学习:线性回归，拉索(Lasso)回归，脊(Ridge)回归_lasso回归梯度下降

作者：很楠不爱3 | 2024-05-22 09:55:33

踩

lasso回归梯度下降

线性模型

线性回归

线性回归是一种线性模型，它通过在输入特征和输出之间找到最佳线性关系来建立模型。线性回归的目标是找到一条直线，使得所有样本到直线的距离之和最小。这条直线的方程为：
$y = w_1x_1 + w_2x_2 + ... + w_nx_n + b$
其中， $w_1, w_2, ..., w_n$ 是权重， $b$ 是偏置。线性回归的损失函数是均方误差：
$\frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2$
其中， $m$ 是样本数量， $y_i$ 是真实值， $\hat{y}_i$ 是预测值。我们的目标是找到一组权重和偏置，使得均方误差最小。我们可以使用梯度下降法来求解。梯度下降法的更新公式为：
$\alpha\frac{\partial{MSE}}{\partial{w}}$

最大似然

线性回归的损失函数是均方误差，我们可以通过最大似然估计来推导出均方误差。假设我们的模型是：
$=\hat{y}+ \epsilon$
其中， $\epsilon$ 是误差项，假设 $\epsilon$ 服从均值为0的正态分布，即 $\epsilon \sim N(0, \sigma^2)$ 。我们可以得到：
$\sim N(\hat{y}, \sigma^2)$
我们的目标是找到一组参数，使得样本的似然最大(样本出现的概率)。我们可以得到似然函数：
$L=\prod_{i=1}^{m}f(x_i|\theta) = \prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i - \hat{y}_i)^2}{2\sigma^2})$
对似然函数取对数，得到对数似然函数：
$\ell = -\frac{m}{2}log(2\pi) - mlog(\sigma) - \frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2$
我们可以看到，对数似然函数的第三项就是均方误差。因此，最大似然估计和均方误差是等价的。
$\ell = MSE$

梯度下降

我们可以通过梯度下降法来求解线性回归的参数。我们的目标是最小化均方误差，即：

\begin{aligned} M S E & = \frac{1}{2 m} \sum_{i = 1}^{m} (y_{i} - {\hat{y}}_{i})^{2} \end{aligned}

$\begin{aligned} MSE &= \frac{1}{2m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2\\ \end{aligned}$

MSE = \frac{1}{2 m} i = 1 \sum m (y_{i} - \overset{y}{^}_{i})^{2}

我们可以对

w

和

b

分别求偏导：

\frac{\partial{\ell}}{\partial{w}} = -\frac{1}{m}\sum_{i=1}^{m}x_i(y_i - \hat{y}_i)\\

最后通过梯度更新参数:

w=w-\eta\frac{\partial{L}}{\partial{w}}

正则项

由于参数的数量可能很多，我们需要对参数进行约束，以防止过拟合。我们可以假设参数服从正态分布，即 $\sim N(0, \alpha^2)$ 。则由贝叶斯公式:
$p (y, w) = p (y ∣ w) p (w)$
带入似然函数：

\begin{aligned} \ln L & = \ln \prod_{i = 1}^{m} p (y_{i} | w) p (w) \\ = \ln \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} e x p (- \frac{(y_{i} - {\hat{y}}_{i})^{2}}{2 σ^{2}}) \frac{1}{\sqrt{2 π} α} e x p (- \frac{w^{2}}{2 α^{2}}) \\ = \sum_{i = 1}^{m} (- \frac{1}{2 σ^{2}} (y_{i} - {\hat{y}}_{i})^{2}) - \frac{1}{2 α^{2}} w^{2} - m \ln (σ) - \frac{m}{2} \ln (2 π) - \frac{m}{2} \ln (α) \\ = - \frac{1}{2 σ^{2}} \sum_{i = 1}^{m} (y_{i} - {\hat{y}}_{i})^{2} - \frac{1}{2 α^{2}} w^{2} + C \\ = - M S E - \frac{1}{2 α^{2}} w^{2} + C \end{aligned}

$\begin{aligned} \ln L&=\ln \prod_{i=1}^{m}p(y_i|w)p(w)\\ &=\ln \prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i - \hat{y}_i)^2}{2\sigma^2})\frac{1}{\sqrt{2\pi}\alpha}exp(-\frac{w^2}{2\alpha^2})\\ \\ &= \sum_{i=1}^{m}(-\frac{1}{2\sigma^2}(y_i - \hat{y}_i)^2) - \frac{1}{2\alpha^2}w^2 - m\ln(\sigma) - \frac{m}{2}\ln(2\pi) - \frac{m}{2}\ln(\alpha)\\ &= -\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2- \frac{1}{2\alpha^2}w^2 +C\\ &= -MSE - \frac{1}{2\alpha^2}w^2 +C \end{aligned}$

ln L = ln i = 1 \prod m p (y_{i} ∣ w) p (w) = ln i = 1 \prod m \frac{1}{2 π σ} e x p (- \frac{( y _{i} - y ^ _{i} ) ^{2}}{2 σ ^{2}}) \frac{1}{2 π α} e x p (- \frac{w ^{2}}{2 α ^{2}}) = i = 1 \sum m (- \frac{1}{2 σ ^{2}} (y_{i} - \overset{y}{^}_{i})^{2}) - \frac{1}{2 α ^{2}} w^{2} - m ln (σ) - \frac{m}{2} ln (2 π) - \frac{m}{2} ln (α) = - \frac{1}{2 σ ^{2}} i = 1 \sum m (y_{i} - \overset{y}{^}_{i})^{2} - \frac{1}{2 α ^{2}} w^{2} + C = - MSE - \frac{1}{2 α ^{2}} w^{2} + C

则我们的目标是最大化

\ln L

，即最小化

\frac{1}{2\alpha^2}w^2

。我们将

\frac{1}{2\alpha^2}w^2

称为正则项，它可以防止过拟合。我们可以将正则项加入到损失函数中，得到正则化的损失函数：

\ell = MSE + \frac{1}{2\alpha^2}w^2 =MSE+\frac{1}{2\alpha^2}\Vert w \Vert_2

其中，

\Vert w \Vert_2

为L2范数，那么

\begin{aligned} \frac{\partial L}{\partial w} = & \frac{\partial M S E}{\partial w} + \frac{1}{α^{2}} w \\ = & λ w + \frac{1}{2 σ} \sum_{i = 1}^{m} x_{i} (y_{i} - \hat{y_{i}}) \end{aligned}

最后就可以使用该梯度公式和梯度下降算法更新参数。
该线性模型为Ridge Regression\

为什么假设正态分布:因为正态分布的一个特性是参数在均值(0)附近的概率很大，也就意味着至少部分特征 $x_i$ 的系数绝对值较大，模型在损失函数和数据的帮助下就可以从数据中选择出会影响结果的特征,这一点在特征的选择中尤为明显。

从概率论的角度来看待正则项:我们通过假设参数服从某一分布，就是对参数的分布做一个先验概率估计，从而排服从预估计分布的参数
如果假设的先验概率不是正态分布，而是拉普拉斯分布, $w\sim Laplace(\mu,b)$
不同参数的拉普拉斯分布概率密度函数

那么正则项就会变成L1范数
$\ell=MSE+\Vert w\Vert_1$
此时该线性模型即是Lasso模型

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/很楠不爱3/article/detail/607672