赞
踩
后验概率最大化等价于期望风险最小化
已知条件:
假设朴素贝叶斯使用0-1损失函数,可以写为:
L
(
Y
,
f
(
x
)
)
=
{
1
,
if
Y
≠
f
(
x
)
0
,
if
Y
=
f
(
)
x
L(Y,f(x))={1, if Y≠f(x)0, if Y=f()x
此时期望风险为:
E
e
x
p
(
f
)
=
E
[
L
(
Y
,
f
(
x
)
)
]
E_{exp}(f)=E[L(Y,f(x))]
Eexp(f)=E[L(Y,f(x))]
由于这里是分类和样本是离散的,所以上面的期望风险可以写成:
∑
X
∑
Y
L
(
Y
,
f
(
x
)
)
p
(
x
,
y
)
=
∑
X
∑
Y
L
(
Y
,
f
(
x
)
)
p
(
y
∣
x
)
p
(
x
)
=
∑
X
[
∑
Y
L
(
Y
,
f
(
x
)
)
p
(
y
∣
x
)
]
p
(
x
)
\sum_X\sum_YL(Y,f(x))p(x,y)\\ =\sum_X\sum_YL(Y,f(x))p(y|x)p(x)\\ =\sum_X\left[\sum_YL(Y,f(x))p(y|x)\right]p(x)
X∑Y∑L(Y,f(x))p(x,y)=X∑Y∑L(Y,f(x))p(y∣x)p(x)=X∑[Y∑L(Y,f(x))p(y∣x)]p(x)
可以看到中括号外面是针对所有样本进行求和,因此如果针对期望风险最小化,等价于对中括号里面的东西求最小化:
min
∑
Y
L
(
Y
,
f
(
x
)
)
p
(
y
∣
x
)
\min \sum_YL(Y,f(x))p(y|x)
minY∑L(Y,f(x))p(y∣x)
如果Y代表K个分类
C
k
C_k
Ck,上式中
∑
Y
\sum_Y
∑Y是针对所有K个类别进行求和,所以可以写为:
∑
k
=
1
K
[
L
(
C
k
,
f
(
x
)
)
]
P
(
C
k
∣
X
=
x
)
\sum_{k=1}^K[L(C_k,f(x))]P(C_k|X=x)
k=1∑K[L(Ck,f(x))]P(Ck∣X=x)
也就变成要使得上式最小。
从上面的简单推导得到要证明的东西:
f
(
x
)
=
arg min
y
∈
Y
∑
k
=
1
K
[
L
(
C
k
,
y
)
]
P
(
C
k
∣
X
=
x
)
f(x)=\underset{y\in Y}{\argmin}\sum_{k=1}^K[L(C_k,y)]P(C_k|X=x)
f(x)=y∈Yargmink=1∑K[L(Ck,y)]P(Ck∣X=x)
可以看到
L
(
C
k
,
y
)
L(C_k,y)
L(Ck,y)中前者是标签,后者是预测值,如果
C
k
=
y
C_k=y
Ck=y,则
L
(
C
k
,
y
)
=
0
L(C_k,y)=0
L(Ck,y)=0,因此在累加求和中不用算,只用计算
C
k
≠
y
C_k\ne y
Ck=y的情况,因此上式写为:
f
(
x
)
=
arg min
y
∈
Y
∑
k
=
1
K
P
(
C
k
≠
y
∣
X
=
x
)
f(x)=\underset{y\in Y}{\argmin}\sum_{k=1}^KP(C_k\ne y|X=x)
f(x)=y∈Yargmink=1∑KP(Ck=y∣X=x)
求和所有
C
k
≠
y
C_k\ne y
Ck=y的概率,等价于
1
−
P
(
C
k
=
y
∣
X
=
x
)
1-P(C_k= y|X=x)
1−P(Ck=y∣X=x)的概率,这里理解为预测值x只会属于某一个类别,因此,1减去属于某个类别的概率等价于预测值不属于其他所有类别的概率。因此上式可以写为:
f
(
x
)
=
arg min
y
∈
Y
(
1
−
P
(
C
k
=
y
∣
X
=
x
)
)
f(x)=\underset{y\in Y}{\argmin}\left(1-P(C_k= y|X=x)\right)
f(x)=y∈Yargmin(1−P(Ck=y∣X=x))
然后转换为最大化问题:
f
(
x
)
=
arg max
y
∈
Y
P
(
C
k
=
y
∣
X
=
x
)
f(x)=\underset{y\in Y}{\argmax}P(C_k= y|X=x)
f(x)=y∈YargmaxP(Ck=y∣X=x)
由此可得,期望风险最小化准则变成了后验概率最大化准则。也就是朴素贝叶斯所采用的定理。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。