当前位置:   article > 正文

logit回归模型假设_一文让你搞懂Logistic回归模型

logit模型随机项的假设

注:本文是我和夏文俊同学共同撰写的

现考虑二值响应变量

,比如是否购车,是否点击,是否患病等等,而

是相应的自变量或者称特征。现希望构建一个模型用于描述

的关系,并对

进行预测。

线性模型可以吗?

我们首先想到的是构建线性模型。形式如下:

对于线性模型,可采用最小二乘进行估计。 但这样的模型和估计方法是否合理呢?

采用线性模型对离散变量进行建模,往往存在以下问题:在模型左边

只取两个值,而右边

的取值范围在整个实数轴;

若上述线性模型成立,则成功概率

的线性函数。但很多时候成功概率并不是自变量的线性函数。对于是否购车这一决策,当一个人的收入很低或者很高时,改动收入的取值(比如这个人某个月多收入了两千元)并不会对购车产生很大的影响。但对于一个收入水平中等的人来讲,某个月多收入两千元可能会较大地影响其购车行为。

故对于二值变量,我们一般不采用线性模型来进行建模。那么如何处理呢?

Logistic回归模型

注意到:

的取值范围在整个实数轴,而

取值范围在(0,1)。我们希望通过某种变换,使得模型两边的取值范围一致。

可考虑如下变换过程:

取值在

,进一步

取值则在整个实数轴。从而可以令:

这被称为Logistic模型或者Logit模型。

从另一个角度上,由于

的取值范围在(0,1),而分布函数的取值范围也在(0,1)。故可以考虑令

是某个分布函数。实际上若取

即得到Logistic回归模型。若取

为标准正态分布的分布函数,则得到所谓Probit回归模型。实际上,可以看出通过选择分布函数的不同形式,我们可以得到无穷多个类似的模型。

那么为何我们通常会采用Logistic回归模型呢?一般可以有以下原因:一方面该模型符合很多实际问题。如上购车问题中,我们希望成功概率在X取值很大或很小时,变化程度较低;而在取值中间时,有较大的变化率;

Logistic函数变换有很好的解析性质,便于我们分析和计算。

Logistic回归中为什么没有

通常,在回归模型中存在一个随机误差项

用于描述不能被

解释的其他随机因素。那么为何在Logistic回归模型中,没有

呢?

实际上,对于二值变量

来讲,只要能将其成功概率

刻画下来,该变量的概率特性也就确定下来了。而Logistic回归或者Probit模型都是直接对成功概率

建模。

另一方面,Logistic回归和线性回归模型存在如下的关联。

定义潜变量

。同时当

时,

否则

。这里

是潜变量无法观测的。这种潜变量模型可以描述二值变量

的生成过程。比如在小白鼠实验中,当小白鼠所能承受的药物剂量超过一定水平,小白鼠死亡

那么有:

假定

服从logistic分布,那么有:

从而得到Logistic回归模型

假定

服从标准正态分布,那么有:

从而得到Probit回归模型

如何估计Logistic回归模型?

首先考虑如下问题:对于二值变量

。如何估计成功概率

。由于已知变量的分布形式,我们往往采用极大似然估计方法。即最大化:

而Logistic回归只是将上述二值问题中的成功概率从常数变为了

的函数

。所以仍可采用极大似然估计方法。

此时似然函数为:

对数似然函数为:

在Logistic回归下:

最大化对数似然,令微分为 0,得到

进一步则可基于梯度下降或者牛顿迭代算法进行求解。

Hessian矩阵

牛顿迭代为

易见,对于Logitic回归来讲,极大似然估计法可看作是加权最小二乘估计。

为什么Logistic回归不采用二次损失函数?

对于二分类问题而言,我们采用的损失函数为:

其中,

。我们在线性回归问题中常采用的损失函数为:

为什么不采用这个损失函数呢?首先我们先介绍一些概念。假设

都是随机变量

的概率分布,则在离散情况下:

0. KL-散度和交叉熵

KL-散度

交叉熵

可以看到,极大化KL-divergence和极大化cross-entropy是等价的。

接下来,从极大似然出发,证明极大化似然函数和极大化cross-entropy是等价的。

假设数据

来自概率分布

,我们建立的模型为

,对于分类问题,目标为

,即:

由于

所以极大似然等价于最小化

之间的KL-divergence,即极大似然等价于最小化交叉熵。现在我们可以来回答为什么损失函数要选择文初的形式。

1. 从数据分布来看

极小化上述损失函数等价于极大化似然函数。而由极大似然函数推导出的损失函数是交叉熵。

2. 从优化角度来看

假设数据为

,如果损失函数为二次损失函数,即

,此时

,代入损失函数为:

该损失函数是一个非凸函数,那么大多数优化方法将失效(例如常见的梯度下降法和牛顿迭代法)。

3. 从梯度来看

在随机梯度下降中,同样对于上面的损失函数,其梯度为:

如果在某次梯度更新中,如果

,则

,则梯度将无法更新。

判别分析和Logistic回归的关联

对于分类问题,判别分析也是种常用的分类算法。

假设我们每个类别密度用多元正态分布来建模

基于后验概率最大化原则并考虑

,则有:

这里

是第

类的先验概率。

可见,此时判别分析和Logistic回归的形式一致。但这两种分析方法存在两点不同:出发点不同。上述形式对于判别分析来讲,是基于后验概率最大化原则,且假定每个类别

都服从多元正态分布且协方差矩阵相同;而Logistic回归则直接假定

的关系,并不需要对

的密度函数进行假定。

估计方法不同。对于判别分析来讲,此时利用数据分别估计

。而Logistic回归则通过极大似然方法进行估计。

参考: Goodfellow I , Bengio Y , Courville A . Deep Learning[M]. The MIT Press, 2016.

如果觉得本文不错,请点赞关注!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/989241
推荐阅读
相关标签
  

闽ICP备14008679号