喵喵爱编程

这个屌丝很懒，什么也没留下！

热门标签

ML模型3：逻辑回归模型

作者：喵喵爱编程 | 2024-08-14 10:25:45

踩

ml模型

逻辑回归模型

逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。

1. 问题引入

线性回归是进行回归学习，但如果要做分类任务该怎么办呢？

在广义线性模型下，可以利用一个单调可微的函数将分类任务的标签y与线性回归模型的预测结果联系起来。

实值z → 0/1值？（Q1. 逻辑回归和线性回归有什么区别？）

选用理想的单位阶跃函数 → 单位阶跃函数不连续 → 寻找替代函数 - 对数几率函数(sigmoid函数)
$\frac{1}{1+e^{-z}}$
下图所示 - 红色单位阶跃函数/黑色sigmoid函数

注：以下以常见的二分类为例。且样本集和线性回归相似，只是输出y为离散值。

2. 模型描述

Sigmoid函数：
$\frac{1}{1+e^{-z}}$

令 $x\theta$ ，得到逻辑回归的一般形式：
${h_\theta }(x;\theta ) = {1 \over {1 + {e^{ - x\theta }}}}$

逻辑回归的基本假设 - 假设数据服从伯努利分布。

伯努利分布的简单例子就是抛硬币：抛中为正面的概率是p，抛中为反面的概率是1−p。

即
$1|x;\theta ) = {h_\theta }(x) = {1 \over {1 + {e^{ - x\theta }}}}$ $0|x;\theta ) = 1 - {h_\theta }(x) = 1 - {1 \over {1 + {e^{ - x\theta }}}}$

3. 损失函数

损失函数是基于最大似然估计推导得到的。

1）综合上述输入 $x$ 下分类结果0/1的概率，得：
$P(y|x;\theta ) = {\left( {{h_\theta }(x)} \right)^y}{\left( {1 - {h_\theta }(x)} \right)^{1 - y}}$
2）取似然函数为：

\begin{aligned} L (θ) & a m p; = \prod_{i = 1}^{m} P (y^{(i)} | x^{(i)}; θ) \\ a m p; = \prod_{i = 1}^{m} {(h_{θ} (x^{(i)}))}^{y^{(i)}} {(1 - h_{θ} (x^{(i)}))}^{1 - y^{(i)}} \end{aligned}

$\begin{aligned} L\left( \theta \right) &= \prod\limits_{i = 1}^m {P\left( { {y^{\left( i \right)}}|{x^{\left( i \right)}};\theta } \right)} \\ &= \prod\limits_{i = 1}^m { { {\left( { {h_\theta }({x^{\left( i \right)}})} \right)}^{ {y^{\left( i \right)}}}}{ {\left( {1 - {h_\theta }({x^{\left( i \right)}})} \right)}^{1 - {y^{\left( i \right)}}}}} \end{aligned}$

L (θ) = i = 1 \prod m P (y^{(i)} ∣ x^{(i)}; θ) = i = 1 \prod m (h_{θ} (x^{(i)}))^{y^{(i)}} (1 - h_{θ} (x^{(i)}))^{1 - y^{(i)}}

3）对数似然函数为：

\begin{aligned} l (θ) & a m p; = \log L (θ) \\ a m p; = \sum_{i = 1}^{m} [y^{(i)} \log h_{θ} (x^{(i)}) + (1 - y^{(i)}) \log (1 - h_{θ} (x^{(i)}))] \end{aligned}

最大似然估计就是求得使 $l\left( \theta \right)$ 取最大值时的 $\theta$ ，这里可以使用梯度上升法求解，求得的 $\theta$ 就是要求的最佳参数。

4）为了统一用梯度下降法求解，通常将损失函数定义如下：（Q2. 为什么要取负号/为什么要除以样本数m？）

\begin{aligned} J (θ) & a m p; = - \frac{1}{m} l (θ) \\ a m p; = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \log h_{θ} (x^{(i)}) + (1 - y^{(i)}) \log (1 - h_{θ} (x^{(i)}))] \end{aligned}

$\begin{aligned} J\left( \theta \right) &= - {1 \over m}l\left( \theta \right)\\ &= - {1 \over m}\sum\limits_{i = 1}^m {\left[ { {y^{\left( i \right)}}\log {h_\theta }\left( { {x^{\left( i \right)}}} \right) + \left( {1 - {y^{\left( i \right)}}} \right)\log \left( {1 - {h_\theta }\left( { {x^{\left( i \right)}}} \right)} \right)} \right]} \end{aligned}$

J (θ) = - \frac{1}{m} l (θ) = - \frac{1}{m} i = 1 \sum m [y^{(i)} lo g h_{θ} (x^{(i)}) + (1 - y^{(i)}) lo g (1 - h_{θ} (x^{(i)}))]

4. 模型求解

显然逻辑回归最终拟合函数是非线性的（sigmoid函数分线性），所以此处选择用迭代法-梯度下降法求解。

1）输入：损失函数 $J\left( \theta \right) = - {1 \over m}\sum\limits_{i = 1}^m {\left[ {{y^{\left( i \right)}}\log {h_\theta }\left( {{x^{\left( i \right)}}} \right) + \left( {1 - {y^{\left( i \right)}}} \right)\log \left( {1 - {h_\theta }\left( {{x^{\left( i \right)}}} \right)} \right)} \right]}$
初始值 $\theta$ 和学习步长 $\alpha$

2）更新方程：
${\theta _j} = {\theta _j} - \alpha {\partial \over {\partial {\theta _j}}}J\left( \theta \right),\left( {j = 0,1...n} \right)$

3）损失函数的梯度计算如下：

\begin{aligned} \frac{\partial}{\partial θ_{j}} J (θ) & a m p; = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \frac{1}{h_{θ} (x^{(i)})} \frac{\partial}{\partial θ_{j}} h_{θ} (x^{(i)}) - (1 - y^{(i)}) \frac{1}{1 - h_{θ} (x^{(i)})} \frac{\partial}{\partial θ_{j}} h_{θ} (x^{(i)})] \\ a m p; = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \frac{1}{g (x^{(i)} θ)} - (1 - y^{(i)}) \frac{1}{1 - g (x^{(i)} θ)}] \frac{\partial}{\partial θ_{j}} g (x^{(i)} θ) \\ a m p; = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \frac{1}{g (x^{(i)} θ)} - (1 - y^{(i)}) \frac{1}{1 - g (x^{(i)} θ)}] g (x^{(i)} θ) (1 - g (x^{(i)} θ)) x_{j}^{(i)} \\ a m p; = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} (1 - g (x^{(i)} θ)) - (1 - y^{(i)}) g (x^{(i)} θ)] x_{j}^{(i)} \\ a m p; = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} - g (x^{(i)} θ)] x_{j}^{(i)} \\ a m p; = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} - h_{θ} (x^{(i)})] x_{j}^{(i)} \\ a m p; = \frac{1}{m} \sum_{i = 1}^{m} [h_{θ} (x^{(i)}) - y^{(i)}] x_{j}^{(i)} \end{aligned}

$\begin{aligned} {\partial \over {\partial {\theta _j}}}J\left( \theta \right) &= - {1 \over m}\sum\limits_{i = 1}^m {\left[ { {y^{\left( i \right)}}{1 \over { {h_\theta }\left( { {x^{\left( i \right)}}} \right)}}{\partial \over {\partial {\theta _j}}}{h_\theta }\left( { {x^{\left( i \right)}}} \right) - \left( {1 - {y^{\left( i \right)}}} \right){1 \over {1 - {h_\theta }\left( { {x^{\left( i \right)}}} \right)}}{\partial \over {\partial {\theta _j}}}{h_\theta }\left( { {x^{\left( i \right)}}} \right)} \right]}\\ &= - {1 \over m}\sum\limits_{i = 1}^m {\left[ { {y^{\left( i \right)}}{1 \over {g\left( { {x^{\left( i \right)}}\theta } \right)}} - \left( {1 - {y^{\left( i \right)}}} \right){1 \over {1 - g\left( { {x^{\left( i \right)}}\theta } \right)}}} \right]} {\partial \over {\partial {\theta _j}}}g\left( { {x^{\left( i \right)}}\theta } \right)\\ &=- {1 \over m}\sum\limits_{i = 1}^m {\left[ { {y^{\left( i \right)}}{1 \over {g\left( { {x^{\left( i \right)}}\theta } \right)}} - \left( {1 - {y^{\left( i \right)}}} \right){1 \over {1 - g\left( { {x^{\left( i \right)}}\theta } \right)}}} \right]} g\left( { {x^{\left( i \right)}}\theta } \right)\left( {1 - g\left( { {x^{\left( i \right)}}\theta } \right)} \right)x_j^{\left( i \right)}\\ &= - {1 \over m}\sum\limits_{i = 1}^m {\left[ { {y^{\left( i \right)}}\left( {1 - g\left( { {x^{\left( i \right)}}\theta } \right)} \right) - \left( {1 - {y^{\left( i \right)}}} \right)g\left( { {x^{\left( i \right)}}\theta } \right)} \right]} x_j^{\left( i \right)}\\ &= - {1 \over m}\sum\limits_{i = 1}^m {\left[ { {y^{\left( i \right)}} - g\left( { {x^{\left( i \right)}}\theta } \right)} \right]} x_j^{\left( i \right)}\\ &= - {1 \over m}\sum\limits_{i = 1}^m {\left[ { {y^{\left( i \right)}} - {h_\theta }\left( { {x^{\left( i \right)}}} \right)} \right]} x_j^{\left( i \right)}\\ &= {1 \over m}\sum\limits_{i = 1}^m {\left[ { {h_\theta }\left( { {x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right]} x_j^{\left( i \right)} \end{aligned}$

\frac{\partial}{\partial θ _{j}} J (θ) = - \frac{1}{m} i = 1 \sum m [y^{(i)} \frac{1}{h _{θ} ( x ^{(i)} )} \frac{\partial}{\partial θ _{j}} h_{θ} (x^{(i)}) - (1 - y^{(i)}) \frac{1}{1 - h _{θ} ( x ^{(i)} )} \frac{\partial}{\partial θ _{j}} h_{θ} (x^{(i)})] = - \frac{1}{m} i = 1 \sum m [y^{(i)} \frac{1}{g ( x ^{(i)} θ )} - (1 - y^{(i)}) \frac{1}{1 - g ( x ^{(i)} θ )}] \frac{\partial}{\partial θ _{j}} g (x^{(i)} θ) = - \frac{1}{m} i = 1 \sum m [y^{(i)} \frac{1}{g ( x ^{(i)} θ )} - (1 - y^{(i)}) \frac{1}{1 - g ( x ^{(i)} θ )}] g (x^{(i)} θ) (1 - g (x^{(i)} θ)) x_{j}^{(i)} = - \frac{1}{m} i = 1 \sum m [y^{(i)} (1 - g (x^{(i)} θ)) - (1 - y^{(i)}) g (x^{(i)} θ)] x_{j}^{(i)} = - \frac{1}{m} i = 1 \sum m [y^{(i)} - g (x^{(i)} θ)] x_{j}^{(i)} = - \frac{1}{m} i = 1 \sum m [y^{(i)} - h_{θ} (x^{(i)})] x_{j}^{(i)} = \frac{1}{m} i = 1 \sum m [h_{θ} (x^{(i)}) - y^{(i)}] x_{j}^{(i)}

其中第一个等号用到下式：
${\partial \over {\partial {\theta _j}}}\log {h_\theta }\left( {{x^{\left( i \right)}}} \right){\rm{ = }}{1 \over {{h_\theta }\left( {{x^{\left( i \right)}}} \right)}}{\partial \over {\partial {\theta _j}}}{h_\theta }\left( {{x^{\left( i \right)}}} \right)$
${\partial \over {\partial {\theta _j}}}\log \left( {1 - {h_\theta }\left( {{x^{\left( i \right)}}} \right)} \right) = - {1 \over {1 - {h_\theta }\left( {{x^{\left( i \right)}}} \right)}}{\partial \over {\partial {\theta _j}}}{h_\theta }\left( {{x^{\left( i \right)}}} \right)$
第三个等号用到下式：
$\over {1 + {e^{ - z}}}}$
${{{e^{ - z}}} \over {{{\left( {1 + {e^{ - z}}} \right)}^2}}} = g(z)\left( {1 - g(z)} \right)$
${\partial \over {\partial {\theta _j}}}g\left( {{x^{\left( i \right)}}\theta } \right) = g\left( {{x^{\left( i \right)}}\theta } \right)\left( {1 - g\left( {{x^{\left( i \right)}}\theta } \right)} \right)x_j^{\left( i \right)}$

4）最终更新方程为：

\begin{aligned} θ_{j} & a m p; = θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ) \\ a m p; = θ_{j} - \frac{α}{m} \sum_{i = 1}^{m} [h_{θ} (x^{(i)}) - y^{(i)}] x_{j}^{(i)} \end{aligned}

$\begin{aligned} {\theta _j} &= {\theta _j} - \alpha {\partial \over {\partial {\theta _j}}}J\left( \theta \right)\\ &= {\theta _j} - {\alpha \over m}\sum\limits_{i = 1}^m {\left[ { {h_\theta }\left( { {x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right]} x_j^{\left( i \right)} \end{aligned}$

θ_{j} = θ_{j} - α \frac{\partial}{\partial θ _{j}} J (θ) = θ_{j} - \frac{α}{m} i = 1 \sum m [h_{θ} (x^{(i)}) - y^{(i)}] x_{j}^{(i)}

，其中

{j = 0,1...n}

直到 $\Delta \theta$ 小于阈值 $\varepsilon$
$\Delta \theta {\rm{ = }}{\partial \over {\partial \theta }}J\left( \theta \right) < \varepsilon$

5. 向量化表示

（面试题）

更新方程为：
$\theta = \theta - {\alpha \over m}{x^T}\left( {{1 \over {1 + {e^{ - x\theta }}}} - y} \right)$
Trick：可以用矩阵维数来判断向量化表示应该如何写。 $x$ 是 $\times n$ 维， $\theta$ 是 $\times 1$ 维， $y$ 是 $\times 1$ 维。

$[\begin{matrix} x_{1}^{(0)} & a m p; x_{2}^{(0)} & a m p; . . . & a m p; x_{n}^{(0)} \\ x_{1}^{(1)} & a m p; x_{2}^{(1)} & a m p; . . . & a m p; x_{n}^{(1)} \\ . . . & a m p; . . . & a m p; . . . & a m p; . . . \\ x_{1}^{(m)} & a m p; x_{2}^{(m)} & a m p; . . . & a m p; x_{n}^{(m)} \end{matrix}]$ $\begin{bmatrix} x_1^{\left( 0 \right)} & x_2^{\left( 0 \right)} & ... & x_n^{\left( 0 \right)} \\ x_1^{\left( 1 \right)} & x_2^{\left( 1 \right)} & ... & x_n^{\left( 1 \right)} \\ ... & ... & ... & ... \\ x_1^{\left( m \right)} & x_2^{\left( m \right)} & ... & x_n^{\left( m \right)} \end{bmatrix}$ ，y = $[\begin{matrix} y^{(0)} \\ y^{(1)} \\ . . . \\ y^{(m)} \end{matrix}]$ $\begin{bmatrix} y^{\left( 0 \right)} \\ y^{\left( 1 \right)} \\ ... \\ y^{\left( m \right)} \end{bmatrix}$ $x = ⎣ ⎢ ⎢ ⎢ ⎡ x_{1}^{(0)} x_{1}^{(1)} . . . x_{1}^{(m)} x_{2}^{(0)} x_{2}^{(1)} . . . x_{2}^{(m)} . . . . . . . . . . . . x_{n}^{(0)} x_{n}^{(1)} . . . x_{n}^{(m)} ⎦ ⎥ ⎥ ⎥ ⎤ ， y = ⎣ ⎢ ⎢ ⎡ y^{(0)} y^{(1)} . . . y^{(m)} ⎦ ⎥ ⎥ ⎤$
$\theta = {({\theta _0},{\theta _1},...,{\theta _n})^T}$

6. 逻辑回归模型-优缺点分析

优点：简单易用，易理解；

缺点：准确率并不是很高；很难处理数据不平衡的问题（注意选取合适的评价指标）

7. Code

from sklearn import linear_model
clf = linear_model.LogisticRegression(C=1.0, penalty='l1', tol=1e-6)
1
2

参数解释
C - 正则项权重
penalty - 可选择为"l1"和"l2"，分别对应L1和L2正则化，默认是L2正则化
tol - 截止条件， $\Delta \theta$ 的阈值 $\varepsilon$

8. 拓展 - 其他知识点

激活函数选择sigmoid函数 - 梯度消失/梯度爆炸
优化方法和正则化需详解（同线性回归）
学习步长的选择

Q&A

Q1. 逻辑回归和线性回归有什么区别？（面试题）

预测结果 - 线性回归的预测结果是连续的，逻辑回归的结果是离散的；
假设函数 - 逻辑回归在线性回归的实数范围输出上施加了sigmoid函数，将值收敛在0-1之间；
损失函数 - 线性回归是差平方和，逻辑回归是对数似然函数。

Q2. 为什么要取负号/为什么要除以样本数m？（面试题）

取负号 —— 最大化似然函数相当于损失函数（对似然函数先取负号）最小化；最小化损失函数可以梯度下降法求解。
除以样本数m —— 数量越多误差越大，所以平滑一下

Q3. 关于损失函数的选择

为什么要用对数损失函数作为损失函数？

损失函数一般有四种：平方损失函数/对数损失函数/HingeLoss0-1损失函数/绝对值损失函数。
对极大似然函数取对数可以推得对数损失函数。
${\theta _j} = {\theta _j} - {\alpha \over m}\sum\limits_{i = 1}^m {\left[ {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right]} x_j^{\left( i \right)}$
从上式可以看出，逻辑回归模型下，对数损失函数的训练求解参数的速度是比较快的。因为 ${\theta _j}$ 的更新速度只和 $x_j^{\left( i \right)}$ ， ${{y^{\left( i \right)}}}$ 相关，和sigmoid函数本身的梯度无关。这样更新的速度是可以自始至终都比较稳定。

为什么不选平方损失函数的呢？

如果使用平方损失函数，会发现梯度更新的速度和sigmoid函数本身的梯度是很相关的。sigmoid函数在它在定义域内的梯度都不大于0.25。这样训练会非常的慢。

Q4.逻辑回归在训练的过程中，如果有很多的特征高度相关/有一个特征重复了很对遍，会造成怎样的影响？

如果损失函数最终收敛，就算有很多特征高度相关也不会影响分类器的效果。
但我们通常选择去掉高度相关的特征，因为这样会让模型的可解释性更好，也会加快训练速度。

Ref
机器学习–Logistic回归计算过程的推导
 逻辑回归的常见面试点总结

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/979333