赞
踩
二分类模型,每个分类由条件概率P(Y|X)表示,Y=1,0, X为实数
P ( Y = 1 ∣ x ) = e x p ( w . x ) 1 + e x p ( w . x ) P(Y=1|x) = \frac {exp(w.x)}{1+exp(w.x)} P(Y=1∣x)=1+exp(w.x)exp(w.x)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w . x ) P(Y=0|x) = \frac {1}{1+exp(w.x)} P(Y=0∣x)=1+exp(w.x)1
其中 输入 x ∈ R n + 1 x \in R^{n+1} x∈Rn+1, 输出 Y ∈ 0 , 1 Y\in{0,1} Y∈0,1, w ∈ R n + 1 w \in R^{n+1} w∈Rn+1为权值向量, w . x w.x w.x为两者内积
逻辑回归会将条件概率最大的一类作为x的归类
几率 (odds) : 事 情 发 生 概 率 事 情 不 发 生 概 率 = p 1 − p \frac {事情发生概率}{事情不发生概率} = \frac {p}{1-p} 事情不发生概率事情发生概率=1−pp
对数几率: l o g i t ( p ) = l o g p 1 − p logit(p) = log \frac{p}{1-p} logit(p)=log1−pp
对于逻辑回归模型, 引入条件概率则有:
l o g i t ( p ) = log P ( Y = 1 ∣ x ) P ( Y = 0 ∣ X ) = log P ( Y = 1 ∣ x ) − log P ( Y = 0 ∣ x ) = log e x p ( w . x ) − log ( 1 + e x p ( w . x ) ) − ( log 1 − log ( 1 + e x p ( w . x ) ) ) = log e x p ( w . x ) = w . x logit(p) = \log \frac{P(Y=1|x)}{P(Y=0|X)}\\=\log P(Y=1|x) - \log P(Y=0|x)\\=\log exp(w.x) - \log (1+exp(w.x)) - (\log 1 - \log (1+exp(w.x))) \\= \log exp(w.x) \\ = w.x logit(p)=logP(Y=0∣X)P(Y=1∣x)=logP(Y=1∣x)−logP(Y=0∣x)=logexp(w.x)−log(1+exp(w.x))−(log1−log(1+exp(w.x)))=logexp(w.x)=w.x
即 逻辑回归中,对数几率其实就是输入x的线性表示。
给定训练集 T = [ ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . . . . ] T = [(x_1,y_1), (x_2,y_2)......] T=[(x1,y1),(x2,y2)......],运用极大似然估计法估计模型参数 w w w,从而得到逻辑回归模型
设 P ( Y = 1 ∣ x ) = π ( x ) P(Y=1|x) = \pi(x) P(Y=1∣x)=π(x), P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=0|x) = 1-\pi(x) P(Y=0∣x)=1−π(x)
似然函数:
L ( w ) = ∏ i = 1 n P ( Y ∣ x i ; w ) = ∏ i = 1 n [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i L(w) = \prod ^n _{i=1} P(Y|x_i;w)= \prod ^n _{i=1}[\pi(x_i)]^{y_i} [1-\pi(x_i)]^{1-y_i} L(w)=i=1∏nP(Y∣xi;w)=i=1∏n[π(xi)]yi[1−π(xi)]1−yi
对数似然函数:
L ( w ) = log ∏ i = 1 n [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i L(w) = \log \prod ^n _{i=1}[\pi(x_i)]^{y_i} [1-\pi(x_i)]^{1-y_i} L(w)=logi=1∏n[π(xi)]yi[1−π(xi)]1−yi
= ∑ i = 1 n y i log π ( x i ) + ( 1 − y i ) log ( 1 − π ( x i ) ) = \sum^n_{i=1} y_i\log \pi(x_i) + (1-y_i)\log (1-\pi(x_i)) =i=1∑nyilogπ(xi)+(1−yi)log(1−π(xi))
= ∑ i = 1 n y i log π ( x i ) 1 − π ( x i ) + log ( 1 − π ( x i ) ) = \sum^n_{i=1} y_i\log \frac {\pi(x_i)}{1-\pi(x_i)} + \log (1-\pi(x_i)) =i=1∑nyilog1−π(xi)π(xi)+log(1−π(xi))
= ∑ i = 1 n y i ( w . x i ) − log ( 1 + e x p ( w . x i ) ) =\sum_{i=1}^{n} y_i(w.x_i) - \log (1+exp(w.x_i)) =i=1∑nyi(w.xi)−log(1+exp(w.xi))
我们需要最大化对数似然函数,即以对数似然函数为目标函数的最优化问题。我们通常采用拟牛顿法或者梯度下降法来得到参数 w w w的最大似然估计 w ^ \hat w w^
得到最大似然估计 w ^ \hat w w^后,我们就得到了最终的逻辑回归模型
P ( Y = 1 ∣ x ) = e x p ( w ^ . x ) 1 + e x p ( w ^ . x ) P(Y=1|x) = \frac {exp(\hat w.x)}{1+exp(\hat w.x)} P(Y=1∣x)=1+exp(w^.x)exp(w^.x)
P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ^ . x ) P(Y=0|x) = \frac {1}{1+exp(\hat w.x)} P(Y=0∣x)=1+exp(w^.x)1
异:
逻辑回归是分类模型,线性回归是回归模型。
逻辑回归模型基于最大化因变量y的期望 E ( Y ∣ x ; w ) E(Y|x; w) E(Y∣x;w),给定分类结果, 其中y是离散变量
线性回归求得是 y ^ = w . x \hat y = w.x y^=w.x对于真实值 y y y的近似,以此处理回归问题,其中因变量是连续的
同:
建模都使用了最大似然估计。(线性回归的最小二乘法就是假设y服从正态分布,w,x确定下的最大似然估计)
参数估计都可以使用梯度下降法
更新中
参考资料:
李航 《统计学习方法 第二版》
葫芦娃 《百面机器学习》
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。