赞
踩
对于输入 X \mathcal{X} X,模型的输出值为 f ( X ) f(X) f(X),实际值为 Y Y Y,可以定义如下损失函数
L
(
Y
,
f
(
X
)
)
=
{
1
,
Y
≠
f
(
X
)
0
,
Y
=
f
(
X
)
L(Y, f(X))= \left\{
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X))=\lvert Y-f(X)\rvert L(Y,f(X))=∣Y−f(X)∣
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
log
P
(
Y
∣
X
)
L(Y, P(Y\mid X))=-\log P(Y\mid X)
L(Y,P(Y∣X))=−logP(Y∣X)
假设模型的输入和输出为遵循联合分布
P
(
X
,
Y
)
P(X, Y)
P(X,Y)的随机变量,可以得到损失函数的期望(期望风险,expected risk)为
R
e
x
p
(
f
)
=
E
P
[
L
(
Y
,
f
(
X
)
)
]
=
∫
X
×
Y
L
(
y
,
f
(
x
)
)
P
(
x
,
y
)
d
x
d
y
实际问题中,由于联合分布
P
(
X
,
Y
)
P(X, Y)
P(X,Y)未知,一般通过训练样本取近似总体的联合分布
P
(
X
,
Y
)
P(X, Y)
P(X,Y),不妨设训练样本为
T
=
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
…
,
(
x
N
,
y
N
)
T={(x_1, y_1), (x_2,y_2),\dots, (x_N, y_N)}
T=(x1,y1),(x2,y2),…,(xN,yN)
定义经验风险(empircal risk)
R
e
m
p
R_{emp}
Remp为
R
e
m
p
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
R_{emp}=\frac{1}{N}\sum_{i=1}^NL(y_i, f(x_i))
Remp=N1i=1∑NL(yi,f(xi))
期望风险和经验风险的关系如下
R
e
m
p
⇒
N
→
∞
R
e
x
p
R_{emp}\xRightarrow{N\to\infty}R_{exp}
RempN→∞
Rexp
当样本容量足够大时,可以使用 R e m p R_{emp} Remp最小化策略进行建模(ERM),比如极大似然估计,但是当样本容量较小时,该策略会产生过拟合.
SRM是为了防止过拟合而提出的策略,在ERM加上了表示模型复杂程度的正则化项
R
s
r
m
(
f
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i, f(x_i))+\lambda J(f)
Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
SRM等价于最大后验概率估计,如贝叶斯估计中的最大后验概率估计(MAP).
设学习到的模型为
f
^
(
X
)
\hat{f}(X)
f^(X),训练误差是模型
Y
=
f
^
(
X
)
Y=\hat{f}(X)
Y=f^(X)关于训练数据集的平均损失
R
e
m
p
(
f
^
)
=
1
N
∑
i
=
1
N
L
(
y
i
,
f
^
(
x
i
)
)
R_{emp}(\hat{f})=\frac{1}{N}\sum_{i=1}^NL(y_i, \hat{f}(x_i))
Remp(f^)=N1i=1∑NL(yi,f^(xi))
测试误差是关于测试数据集的平均损失
e
t
e
s
t
=
1
N
′
∑
i
=
1
N
′
L
(
y
i
,
f
^
(
x
i
)
)
e_{test}=\frac{1}{N'}\sum_{i=1}^{N'}L(y_i, \hat{f}(x_i))
etest=N′1i=1∑N′L(yi,f^(xi))
在确定模型复杂度的情况下,根据ERM策略,求解模型参数
设
M
M
M次多项式为
f
M
(
x
,
w
)
=
w
0
+
w
1
x
+
⋯
+
w
M
x
M
=
∑
j
=
0
M
w
j
x
j
f_M(x, w)=w_0+w_1x+\dots+w_Mx^M=\sum_{j=0}^Mw_jx_j
fM(x,w)=w0+w1x+⋯+wMxM=j=0∑Mwjxj
优化目标函数为
L
(
w
)
=
1
2
∑
i
=
1
N
(
f
M
(
x
,
w
)
−
y
i
)
2
L(w)=\frac{1}{2}\sum_{i=1}^N(f_M(x, w)-y_i)^2
L(w)=21i=1∑N(fM(x,w)−yi)2
模型复杂度与误差之间的关系如下
可以发现,当模型的复杂度过大时,会发生过拟合现象,为了选择出复杂度合适的模型,需要进行正则化与交叉验证.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。