赞
踩
注:本文是我和夏文俊同学共同撰写的
现考虑二值响应变量
,比如是否购车,是否点击,是否患病等等,而
是相应的自变量或者称特征。现希望构建一个模型用于描述
和
的关系,并对
进行预测。
线性模型可以吗?
我们首先想到的是构建线性模型。形式如下:
对于线性模型,可采用最小二乘进行估计。 但这样的模型和估计方法是否合理呢?
采用线性模型对离散变量进行建模,往往存在以下问题:在模型左边
只取两个值,而右边
的取值范围在整个实数轴;
若上述线性模型成立,则成功概率
是
的线性函数。但很多时候成功概率并不是自变量的线性函数。对于是否购车这一决策,当一个人的收入很低或者很高时,改动收入的取值(比如这个人某个月多收入了两千元)并不会对购车产生很大的影响。但对于一个收入水平中等的人来讲,某个月多收入两千元可能会较大地影响其购车行为。
故对于二值变量,我们一般不采用线性模型来进行建模。那么如何处理呢?
注意到:
的取值范围在整个实数轴,而
取值范围在(0,1)。我们希望通过某种变换,使得模型两边的取值范围一致。
可考虑如下变换过程:
取值在
,进一步
取值则在整个实数轴。从而可以令:
这被称为Logistic模型或者Logit模型。
从另一个角度上,由于
的取值范围在(0,1),而分布函数的取值范围也在(0,1)。故可以考虑令
是某个分布函数。实际上若取
即得到Logistic回归模型。若取
为标准正态分布的分布函数,则得到所谓Probit回归模型。实际上,可以看出通过选择分布函数的不同形式,我们可以得到无穷多个类似的模型。
那么为何我们通常会采用Logistic回归模型呢?一般可以有以下原因:一方面该模型符合很多实际问题。如上购车问题中,我们希望成功概率在X取值很大或很小时,变化程度较低;而在取值中间时,有较大的变化率;
Logistic函数变换有很好的解析性质,便于我们分析和计算。
Logistic回归中为什么没有
?
通常,在回归模型中存在一个随机误差项
用于描述不能被
解释的其他随机因素。那么为何在Logistic回归模型中,没有
呢?
实际上,对于二值变量
来讲,只要能将其成功概率
刻画下来,该变量的概率特性也就确定下来了。而Logistic回归或者Probit模型都是直接对成功概率
建模。
另一方面,Logistic回归和线性回归模型存在如下的关联。
定义潜变量
。同时当
时,
否则
。这里
是潜变量无法观测的。这种潜变量模型可以描述二值变量
的生成过程。比如在小白鼠实验中,当小白鼠所能承受的药物剂量超过一定水平,小白鼠死亡
。
那么有:
假定
服从logistic分布,那么有:
从而得到Logistic回归模型
假定
服从标准正态分布,那么有:
从而得到Probit回归模型
如何估计Logistic回归模型?
首先考虑如下问题:对于二值变量
。如何估计成功概率
。由于已知变量的分布形式,我们往往采用极大似然估计方法。即最大化:
而Logistic回归只是将上述二值问题中的成功概率从常数变为了
的函数
。所以仍可采用极大似然估计方法。
此时似然函数为:
对数似然函数为:
在Logistic回归下:
最大化对数似然,令微分为 0,得到
进一步则可基于梯度下降或者牛顿迭代算法进行求解。
Hessian矩阵
牛顿迭代为
易见,对于Logitic回归来讲,极大似然估计法可看作是加权最小二乘估计。
为什么Logistic回归不采用二次损失函数?
对于二分类问题而言,我们采用的损失函数为:
其中,
。我们在线性回归问题中常采用的损失函数为:
为什么不采用这个损失函数呢?首先我们先介绍一些概念。假设
和
都是随机变量
的概率分布,则在离散情况下:
0. KL-散度和交叉熵
KL-散度
交叉熵
可以看到,极大化KL-divergence和极大化cross-entropy是等价的。
接下来,从极大似然出发,证明极大化似然函数和极大化cross-entropy是等价的。
假设数据
来自概率分布
,我们建立的模型为
,对于分类问题,目标为
,即:
由于
所以极大似然等价于最小化
和
之间的KL-divergence,即极大似然等价于最小化交叉熵。现在我们可以来回答为什么损失函数要选择文初的形式。
1. 从数据分布来看
极小化上述损失函数等价于极大化似然函数。而由极大似然函数推导出的损失函数是交叉熵。
2. 从优化角度来看
假设数据为
,如果损失函数为二次损失函数,即
,此时
,代入损失函数为:
该损失函数是一个非凸函数,那么大多数优化方法将失效(例如常见的梯度下降法和牛顿迭代法)。
3. 从梯度来看
在随机梯度下降中,同样对于上面的损失函数,其梯度为:
如果在某次梯度更新中,如果
,
,则
,则梯度将无法更新。
判别分析和Logistic回归的关联
对于分类问题,判别分析也是种常用的分类算法。
假设我们每个类别密度用多元正态分布来建模
基于后验概率最大化原则并考虑
,则有:
这里
是第
类的先验概率。
可见,此时判别分析和Logistic回归的形式一致。但这两种分析方法存在两点不同:出发点不同。上述形式对于判别分析来讲,是基于后验概率最大化原则,且假定每个类别
都服从多元正态分布且协方差矩阵相同;而Logistic回归则直接假定
和
的关系,并不需要对
的密度函数进行假定。
估计方法不同。对于判别分析来讲,此时利用数据分别估计
和
。而Logistic回归则通过极大似然方法进行估计。
参考: Goodfellow I , Bengio Y , Courville A . Deep Learning[M]. The MIT Press, 2016.
如果觉得本文不错,请点赞关注!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。