2023面试高手

这个屌丝很懒，什么也没留下！

热门标签

作为分类算法，逻辑回归是如何和回归扯上关系的_the regression analysis of binary sequences

作者：2023面试高手 | 2024-04-24 03:52:47

踩

the regression analysis of binary sequences

今天就逻辑回归和回归问题之间的关系做个梳理，下次再遇到谁扯逻辑回归如何如何做回归，我直接丢。。。

仅个人拙见。

文章目录

1 何为回归？何为分类？
2 回归问题在拟合什么？分类问题又在拟合什么？
- 2.1 回归的拟合问题
- 2.2 分类的拟合问题
3 逻辑回归与回归的关系
4 逻辑回归为啥是分类算法？
5 逻辑回归如何用于分类？
6 逻辑回归和线性回归的比较

1 何为回归？何为分类？

回归和分类从宏观意义上见就是一类问题，给定输入x，通过模型F，输出结果y。二者的区别在于输出结果y的不同。这就是最最根本的区别，你输出的结果就直接反映了问题的本质。

$\color{red}{分类}$ ：当输出y为离散值时，就是分类问题。比如（1，-1），（1，0）这样代表两种状态的表达。明天天气晴天，设状态为1，阴天状态就是0。
$\color{red}{回归}$ ：当输出y为连续值时，就是回归问题。比如预测未来10天的股票价格预测。

2 回归问题在拟合什么？分类问题又在拟合什么？

2.1 回归的拟合问题

对于一个回归问题，简单的可以表示为:
$y = w x + b$
x是一组符合某种分布的特征 $x=(x_1,x_2,..,x_n)$ ，回归就是为了拟合出这个函数，使得y值可以经过符合统一分布下的其他x值对应的点。也就是说，回归问题拟合的是一组数据特征的分布。

2.2 分类的拟合问题

一个分类可以简单的表示为：

$P(y=1|x;\theta^T)$
分类就是在拟合一个概率值，使预测类别不断地逼近真实标签的概率。

3 逻辑回归与回归的关系

逻辑回归（Logistic Regression，LR）和回归之间的关系，大概就是名字中间有了一个回归。为何LR叫做“回归”呢，大概还是要从该算法诞生之初说起。

1956年，统计学家DavidCox在他的论文《The regression analysis of binary sequences》《二元序列中的回归分析》提出了逻辑回归算法。因为上个世纪中叶的时候，回归和分类的定义与今天有所不同，所以分类算法逻辑回归的“回归”两字就这样沿袭下来了。

对于一个回归问题：
$=\theta^Tx$
将其放在一个Logistic分布函数中，
$\frac{1}{1+e^{-(x-u)/r}}$

得到：
$\frac{1}{1+e^-{\theta^Tx}}$
可以进行变形为：
$ln\frac{g(X)}{1-g(X)}=\theta^Tx$
这样一看，如果把一个事件的几率（oods）定义为：事件发生概率 $g (X) = P (y = 1 ∣ x)$ 和不发生概率的比值
$\frac{g(X)}{1-g(X)}$

那么LR就可以看作是：对于 $y = 1 ∣ x$ 这个事件的对数几率的线性回归。于是逻辑回归的回归二字就延续下来了。

4 逻辑回归为啥是分类算法？

接着上面说，如果是对事件 $y = 1 ∣ x$ 而言，逻辑回归是一个对数几率的回归问题。但是，但是，但是，实际上，y才是因变量，而不是p/1+p。而在逻辑回归中的y是离散值（y=1,y=0）。显然不是连续的，试问离散值的y如何变成回归问题的连续值。

5 逻辑回归如何用于分类？

下面简单的介绍下LR模型原理

5.1 Logistic 分布函数

顾名思义，逻辑回归重点还是在于Logistic。正是由于Logistic分布函数的存在，使得线性回归走向了分类问题。Logistic分布如下：
$\frac{1}{1+e^{-(x-u)/r}}$
在这里插入图片描述

其中μ是位置参数，γ是形状参数。

从Logistic的定义式可以看出logistic分布是由其位置和尺度参数定义的连续分布。Logistic 分布的形状与正态分布的形状相似，但是 Logistic 分布的尾部更长，所以我们可以使用 Logistic 分布来建模比正态分布具有更长尾部和更高波峰的数据分布。

另外，我们常用到的 Sigmoid 函数就是μ = 0，γ = 1的特殊形式。除此之外，Logistic 的分布函数的值域是(0, 1)，这正好可以用来表示概率的大小。

5.2 LR模型

对于一个二分类问题，设：

\begin{aligned} P (Y = 1 | x) = p (x) = \frac{1}{1 + e^{-} θ^{T} x} \\ P (Y = 0 | x) = 1 - p (x) = 1 - \frac{1}{1 + e^{-} θ^{T} x} \end{aligned}

$\begin{aligned} &P(Y=1|x)=p(x)= \frac{1}{1+e^-{\theta^Tx}}\\ &P(Y=0|x)=1-p(x)=1- \frac{1}{1+e^-{\theta^Tx}} \end{aligned}$

P (Y = 1 ∣ x) = p (x) = \frac{1}{1 + e ^{-} θ ^{T} x} P (Y = 0 ∣ x) = 1 - p (x) = 1 - \frac{1}{1 + e ^{-} θ ^{T} x}

构造似然函数：
$L(w)=\prod\left[p\left(x_{i}\right)\right]^{y_{i}}\left[1-p\left(x_{i}\right)\right]^{1-y_{i}}$
为了更方便求解，我们对等式两边同取对数，写成对数似然函数：

\begin{aligned} L (w) & = \sum [y_{i} \ln p (x_{i}) + (1 - y_{i}) \ln (1 - p (x_{i}))] \\ = \sum [y_{i} \ln \frac{p (x_{i})}{1 - p (x_{i})} + \ln (1 - p (x_{i}))] \\ = \sum [y_{i} (θ \cdot x_{i}) - \ln (1 + e^{θ \cdot x_{i}})] \end{aligned}

$\begin{aligned} L(w) &=\sum\left[y_{i} \ln p\left(x_{i}\right)+\left(1-y_{i}\right) \ln \left(1-p\left(x_{i}\right)\right)\right] \\ &=\sum\left[y_{i} \ln \frac{p\left(x_{i}\right)}{1-p\left(x_{i}\right)}+\ln \left(1-p\left(x_{i}\right)\right)\right] \\ &=\sum\left[y_{i}\left(\theta \cdot x_{i}\right)-\ln \left(1+e^{\theta \cdot x_{i}}\right)\right] \end{aligned}$

L (w) = \sum [y_{i} ln p (x_{i}) + (1 - y_{i}) ln (1 - p (x_{i}))] = \sum [y_{i} ln \frac{p ( x _{i} )}{1 - p ( x _{i} )} + ln (1 - p (x_{i}))] = \sum [y_{i} (θ \cdot x_{i}) - ln (1 + e^{θ \cdot x_{i}})]

在机器学习中我们有损失函数的概念，其衡量的是模型预测错误的程度。如果取整个数据集上的平均对数似然损失，我们可以得到:

J(w)=-\frac{1}{N} \ln L(w)

即在逻辑回归模型中，我们最大化似然函数和最小化损失函数实际上是等价的。

5.3 模型求解

LR的损失函数完整表达为：
$J(w)=-\frac{1}{n}\left(\sum_{i=1}^{n}\left(y_{i} \ln p\left(x_{i}\right)+\left(1-y_{i}\right) \ln \left(1-p\left(x_{i}\right)\right)\right)\right.$

1.梯度下降法
通过 $J (w)$ 对 $w$ 的一阶导数来找下降方向，并且以迭代的方式来更新参数，更新方式为

\begin{aligned} g_{i} = \frac{\partial J (w)}{\partial w_{i}} & = (p (x_{i}) - y_{i}) x_{i} \\ w_{i}^{k + 1} & = w_{i}^{k} - α g_{i} \end{aligned}

$\begin{aligned}g_{i}=\frac{\partial J(w)}{\partial w_{i}} &=\left(p\left(x_{i}\right)-y_{i}\right) x_{i} \\w_{i}^{k+1} &=w_{i}^{k}-\alpha g_{i}\end{aligned}$

g_{i} = \frac{\partial J ( w )}{\partial w _{i}} w_{i}^{k + 1} = (p (x_{i}) - y_{i}) x_{i} = w_{i}^{k} - α g_{i}

其中

\mathrm{k}

为迭代次数。每次更新参数后，可以通过比较

\left\|J\left(w^{k+1}\right)-J\left(w^{k}\right)\right\|

小于阈值或者到达最大迭代次数来停止迭代.

2.牛顿法

牛顿法基本思路是，在现有极小点估计值的附近对 $f (x)$ 做二阶泰勒展开，进而找到极小点的下一个估计值。假设 $w^{k}$ 为当前的极小值估计值，那么有: $\varphi(w)=J\left(w^{k}\right)+J^{\prime}\left(w^{k}\right)\left(w-w^{k}\right)+\frac{1}{2} J^{\prime \prime}\left(w^{k}\right)\left(w-w^{k}\right)^{2}$ 然后令 $\varphi^{\prime}(w)=0$ ，得到了 $w^{k+1}=w^{k}-\frac{J^{\prime}\left(w^{k}\right)}{J^{\prime \prime}\left(w^{k}\right)}$ 。因此有迭代更新式: $w^{k+1}=w^{k}-\frac{J^{\prime}\left(w^{k}\right)}{J^{\prime \prime}\left(w^{k}\right)}=w^{k}-H_{k}^{-1} \cdot g_{k}$ 其中 $H_{k}^{-1}$ 为海森矩阵: $H_{m n}=\frac{\partial^{2} J(w)}{\partial w_{m} \partial w_{n}}=h_{w}\left(x^{(i)}\right)\left(1-p_{w}\left(x^{(i)}\right)\right) x_{m}^{(i)} x_{n}^{(i)}$
此外，这个方法需要目标函数是二阶连续可微的，本文中的 $J(\mathrm{w})$ 是符合要求的。

6 逻辑回归和线性回归的比较

逻辑回归本质上就是在线性回归的基础上，加了Sigmoid函数进行非线性映射，使其成为一个分类模型。
本质上说，二者都是一个广义线性模型。

其中，由于sigmoid函数的作用：

线性回归是在实数域范围内进行预测，而分类范围则需要在 [0,1]，逻辑回归减少了预测范围；
线性回归在实数域上敏感度一致，而逻辑回归在 0 附近敏感，在远离 0 点位置不敏感，这个的好处就是模型更加关注分类边界，可以增加模型的鲁棒性

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/477480