赞
踩
写在前面:逻辑斯谛回归最初是数学家 Verhulst 用来研究人口增长是所发现的,是一个非常有趣的发现过程, b 站有更详细的背景及过程推导,在此不再赘述:https://www.bilibili.com/video/BV1No4y1o7ac/?p=59
逻辑斯谛分布的标准形式:
F
(
x
)
=
1
1
+
e
−
x
F(x) = \frac{1}{1 + e^{-x}}
F(x)=1+e−x1
f ( x ) = e − x ( 1 + e − x ) 2 f(x) = \frac{e^{-x}}{(1 + e^{-x})^2} f(x)=(1+e−x)2e−x
逻辑斯谛回归的一般形式:
设
X
\rm X
X 是连续随机变量,
X
\rm X
X 服从逻辑斯谛分布是指
X
\rm X
X 具有下列分布函数和概率密度:
F
(
x
)
=
P
(
X
⩽
x
)
=
1
1
+
e
−
(
x
−
μ
)
/
γ
F(x)=P(X\leqslant x)={\frac{1}{1+\mathrm{{e}}^{-(x-\mu)/\gamma}}}\\
F(x)=P(X⩽x)=1+e−(x−μ)/γ1
f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F^{\prime}(x)={\frac{\mathrm{e}^{-(x-\mu)/\gamma}}{\gamma(1+\mathrm{e}^{-(x-\mu)/\gamma})^{2}}} f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
式中, μ \mu μ 为位置参数, γ > 0 \gamma > 0 γ>0 为形式参数。
P ( Y = 1 ∣ x ) = exp ( w ⋅ x + b ) 1 + exp ( w ⋅ x + b ) P(Y=1 \mid x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)} P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)
P ( Y = 0 ∣ x ) = 1 1 + exp ( w ⋅ x + b ) P(Y=0 \mid x)=\frac{1}{1+\exp (w \cdot x+b)} P(Y=0∣x)=1+exp(w⋅x+b)1
其中, x ∈ R n x \in {\bf R^n} x∈Rn 是输入, Y ∈ 0 , 1 Y \in {0,1} Y∈0,1 是输出, w ∈ R n w \in {\bf R^n} w∈Rn 和 b ∈ R n b \in {\bf R^n} b∈Rn 是参数, w w w 称为权值向量, b b b 称为偏置, w ⋅ x w \cdot x w⋅x 为 x x x 和 x x x 的内积。
为了方便,将权重向量和输入向量加以扩充,仍记为
w
w
w 和
x
x
x ,则有:
ω
=
(
ω
(
1
)
,
ω
(
2
)
,
⋯
,
ω
(
n
)
,
b
)
T
,
x
=
(
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
n
)
,
1
)
T
,
\omega=\left(\omega^{(1)}, \omega^{(2)}, \cdots, \omega^{(n)}, b\right)^T, \quad \quad x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}, 1\right)^T,
ω=(ω(1),ω(2),⋯,ω(n),b)T,x=(x(1),x(2),⋯,x(n),1)T,
逻辑分布函数重写为:
P
(
Y
=
1
∣
x
)
=
e
w
⋅
x
1
+
e
w
⋅
x
P(Y=1 \mid x)=\frac{e^{w \cdot x}}{1 + e^{w \cdot x}}
P(Y=1∣x)=1+ew⋅xew⋅x
P ( Y = 0 ∣ x ) = 1 1 + e w ⋅ x P(Y=0 \mid x)=\frac{1}{1 + e^{w \cdot x}} P(Y=0∣x)=1+ew⋅x1
二项分布:
P
(
Y
)
=
{
1
−
p
,
Y
=
0
p
,
Y
=
1
=
(
1
−
p
)
1
−
Y
p
Y
P(Y)=\left\{
对于
(
x
i
,
y
i
)
(x_i, y_i)
(xi,yi) ,有:
P
(
Y
=
y
i
∣
x
i
)
=
(
1
−
p
i
)
1
−
y
i
p
i
y
i
P(Y = y_i | x_i) = (1 - p_i)^{1 - y_i} p_i^{y_i}
P(Y=yi∣xi)=(1−pi)1−yipiyi
其中:
p
i
=
e
w
⋅
x
i
1
+
e
w
⋅
x
i
1
−
p
i
=
1
1
+
e
w
⋅
x
i
对于数据集
T
=
(
X
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
N
,
y
N
)
T = {(X_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}
T=(X1,y1),(x2,y2),⋯,(xN,yN) 出现的概率:
∏
i
=
1
N
(
1
−
p
i
)
1
−
y
i
p
i
y
i
\prod_{i = 1}^N (1 - p_i)^{1 - y_i} p_i^{y_i}
i=1∏N(1−pi)1−yipiyi
该概率只与
w
w
w 有关,即可得关于
w
w
w 的似然函数:
L
(
w
)
=
∏
i
=
1
N
(
1
−
p
i
)
1
−
y
i
p
i
y
i
L(w) = \prod_{i = 1}^N (1 - p_i)^{1 - y_i} p_i^{y_i}
L(w)=i=1∏N(1−pi)1−yipiyi
对数似然函数:
log
∏
i
=
1
N
p
i
y
i
(
1
−
p
i
)
1
−
y
i
=
∑
i
=
1
N
[
y
i
log
p
i
+
(
1
−
y
i
)
log
(
1
−
p
i
)
]
=
∑
i
=
1
N
[
y
i
log
p
i
1
−
p
i
+
log
(
1
−
p
i
)
]
代入(12)(13)式:
L
(
w
)
=
∑
i
=
1
N
[
y
i
w
⋅
x
i
−
log
(
1
+
e
w
⋅
x
i
)
]
L(w) = \sum_{i = 1}^{N}[y_i \ w \cdot x_i - \log(1 + e^{w \cdot x_i})]
L(w)=i=1∑N[yi w⋅xi−log(1+ew⋅xi)]
这样,问题就变成了以对数似然函数为目标函数的最优化问题,可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。
二项逻辑斯谛回归模型可将其推广到多项逻辑斯谛回归模型(multi-nominal logistic regression model),用于多类分类。假设离散型随机变量
Y
Y
Y 的取值集合是
1
,
2
,
⋯
,
K
{1,2,\cdots, K}
1,2,⋯,K ,那么多项逻辑斯谛回归模型是:
P
(
Y
=
k
∣
x
)
=
exp
(
w
k
⋅
x
)
1
+
∑
k
=
1
K
−
1
exp
(
w
k
⋅
x
)
,
k
=
1
,
2
,
⋯
,
K
−
1
P
(
Y
=
K
∣
x
)
=
1
1
+
∑
k
=
1
K
−
1
exp
(
w
k
⋅
x
)
这里,
x
∈
R
n
+
1
x \in {\bf R^{n+1}}
x∈Rn+1 ,
w
k
∈
R
n
+
1
w_k \in {\bf R^{n+1}}
wk∈Rn+1 。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。