赞
踩
Logistic回归虽然名字叫”回归”
一 从线性回归到Logistic回归
线性回归和Logistic回归都是广义线性模型的特例。
假设有一个因变量y和一组自变量x1, x2, x3, ... , xn,其中y为连续变量,我们可以拟合一个线性方程:
y =β0
并通过最小二乘法估计各个β系数的值。
如果y为二分类变量,只能取值0或1,那么线性回归方程就会遇到困难:
y = 1 / (1+e-x)
这是一个S型函数,值域为(0,1),能将任何数值映射到(0,1),且具有无限阶可导等优良数学性质。
我们将线性回归方程改写为:
y = 1 / (1+e-z),
其中,z =β0
此时方程两边的取值都在0和1之间。
进一步数学变换,可以写为:
Ln(y/(1-y)) =β0
Ln(y/(1-y))称为Logit变换。我们再将y视为y取值为1的概率p(y=1),因此,1-y就是y取值为0的概率p(y=0),所以上式改写为:
p(y=1) = ez/(1+ez),
p(y=0) = 1/(1+ez),
其中,z =β0
接下来就可以使用”最大似然法”估计出各个系数β。
二 odds与OR复习
三 Logistic回归结果的解读
hon | 系数β | 标准误 | P |
截距 | -1.12546 | 0.164 | 0.000 |
hon | 例数 | 百分比 |
0 | 151 | 75.5% |
1 | 49 | 24.5% |
hon | 系数β | 标准误 | P |
female | 0.593 | .3414294 | 0.083 |
截距 | -1.47 | .2689555 | 0.000 |
hon | female | Total | |
Male | Female | ||
0 | 74 | 77 | 151 |
1 | 17 | 32 | 49 |
Total | 91 | 109 | |
根据这个交叉表,对于男性(Male),其处在荣誉班级的概率为17/91,处在非荣誉班级的概率为74/91,所以其处在荣誉班级的几率odds1=(17/91)/(74/91) = 17/74 = 0.23;相应的,女性处于荣誉班级的几率odds2 = (32/109)/(77/109)=32/77 = 0.42。女性对男性的几率之比OR = odds2/odds1 = 0.42/0.23 = 1.809。我们可以说,女性比男性在荣誉班的几率高80.9%。
回到Logistic回归结果。截距的系数-1.47是男性odds的对数(因为男性用female=0表示,是对照组),ln(0.23) = -1.47。变量female的系数为0.593,是女性对男性的OR值的对数,ln(1.809) = 0.593。所以我们可以得出关系: OR = exp(β),或者β= ln(OR)(exp(x)函数为指数函数,代表e的x次方)。
hon | 系数β | 标准误 | P |
math | .1563404 | .0256095 | 0.000 |
截距 | -9.793942 | 1.481745 | 0.000 |
hon | 系数β | 标准误 | P |
math | .1229589 | 略 | 0.000 |
female | 0.979948 | 略 | 0.020 |
read | .0590632 | 略 | 0.026 |
截距 | -11.77025 | 略 | 0.000 |
hon | 系数β | 标准误 | P |
female | -2.899863 | 略 | 0.349 |
math | .1293781 | 略 | 0.000 |
female*math | .0669951 | 略 | 0.210 |
截距 | -8.745841 | 略 | 0.000 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。