赞
踩
对学习结果进行性能比较,本节默认以错误率为性能度量,用 ϵ \epsilon ϵ表示。
泛化错误率
ϵ
\epsilon
ϵ:在一个样本上犯错的概率是
ϵ
\epsilon
ϵ。
测试错误率
ϵ
^
\hat{\epsilon}
ϵ^:在
m
m
m个测试样本中恰有
ϵ
^
×
m
\hat{\epsilon}\times m
ϵ^×m个被误分类。
泛化错误率为
ϵ
\epsilon
ϵ的学习器将其中
m
′
m'
m′个样本误分类、其余样本全部分类正确的概率是
ϵ
m
′
(
1
−
ϵ
)
m
−
m
′
\epsilon^{m'}(1-\epsilon)^{m-m'}
ϵm′(1−ϵ)m−m′。
将
ϵ
^
×
m
\hat{\epsilon}\times m
ϵ^×m个样本误分类的概率为:(在包含
m
m
m个样本的测试集上,泛化错误率为
ϵ
\epsilon
ϵ学习器被测得测试错误率为
ϵ
^
\hat{\epsilon}
ϵ^的概率)
P
(
ϵ
^
;
ϵ
)
=
(
m
ϵ
^
×
m
)
ϵ
ϵ
^
×
m
(
1
−
ϵ
)
m
−
ϵ
^
×
m
P(\hat{\epsilon};\epsilon)=\left(
针对多个学习器,使用k折交叉验证“成对t检验”,验证 ε i A = ε i B \varepsilon _i^A=\varepsilon _i^B εiA=εiB.
针对二分类问题,列出两学习器分类差别列联表,假设两学习器性能相同,McNemar检验考虑变量 ( ∣ e 01 − e 10 ∣ ) 2 e 01 + e 10 \frac{(|e_{01}-e_{10}|)^2}{e_{01}+e_{10}} e01+e10(∣e01−e10∣)2服从自由度为1的卡方分布,给定显著度 α \alpha α,当以上变量小于临界值 χ α 2 \chi_{\alpha}^2 χα2时,不能拒绝假设,否则认为两者性能有显著差别,且平均错误率较小的那个学习器性能较优。
前两个检验方法都是在一个数据集上进行比较两个算法,该节方法适用于比较多个算法。Friedman检验使用服从自由度为 k − 1 k-1 k−1和 ( k − 1 ) ( N − 1 ) 的 F (k-1)(N-1)的F (k−1)(N−1)的F分布,当假设被拒绝时,再使用Nemenyi后续检验。
泛化误差可分解为偏差、方差与噪声之和。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。