赞
踩
本博客为作者根据周志华的西瓜书和参考资料1、2所做的笔记,主要用于学习,非技术类博客,因此存在大量复制粘贴,请见谅。
由于“测试误差”受到很多因素的影响,例如:算法随机性(例如常见的K-Means)或测试集本身的选择,使得同一模型每次得到的结果不尽相同,同时测试误差是作为泛化误差的近似,并不能代表学习器真实的泛化性能,那如何对单个或多个学习器在不同或相同测试集上的性能度量结果做比较呢?这就是比较检验。
在比较学习器泛化性能的过程中,统计假设检验(hypothesis test)为学习器性能比较提供了重要依据,即若A在某测试集上的性能优于B,那A学习器比B好的把握有多大。 为方便论述,本篇中都是以“错误率”作为性能度量的标准。
“假设”指的是对样本总体的分布或已知分布中某个参数值的一种猜想,例如:假设总体服从泊松分布。
我们可以通过测试获得测试错误率,直观上测试错误率和泛化错误率相差不会太远,因此可以通过测试错误率来推测泛化错误率的分布,这就是一种假设检验。
泛化错误率为
ϵ
\epsilon
ϵ的学习器在一个样本上犯错的概率是
ϵ
\epsilon
ϵ;测试错误率
ϵ
^
\hat{\epsilon}
ϵ^意味着在
m
m
m个测试样本中恰有
ϵ
^
×
m
\hat{\epsilon}\times m
ϵ^×m个被误分类。假定测试样本是从样本总体分布中独立采样而得,那么泛化错误率为
ϵ
\epsilon
ϵ的学习器将其中
m
′
m'
m′个样本误分类、其余样本全都分类正确的概率是
ϵ
m
′
(
1
−
ϵ
)
m
−
m
′
\epsilon^{m'}(1-\epsilon)^{m-m'}
ϵm′(1−ϵ)m−m′;由此可估算出其恰将
ϵ
^
×
m
\hat{\epsilon}\times m
ϵ^×m个样本误分类的概率如下式所示,这也表达了在包含m个样本的测试集上,泛化错误率为
ϵ
\epsilon
ϵ的学习器被测得测试错误率为
ϵ
^
\hat{\epsilon}
ϵ^的概率:
给定测试错误率,则解
∂
P
(
ϵ
^
;
ϵ
)
∂
ϵ
\frac{\partial P(\hat{\epsilon};\epsilon)}{\partial \epsilon}
∂ϵ∂P(ϵ^;ϵ)可知,
P
(
ϵ
^
;
ϵ
)
P(\hat{\epsilon};\epsilon)
P(ϵ^;ϵ)在
ϵ
=
ϵ
^
\epsilon=\hat{\epsilon}
ϵ=ϵ^时最大,
∣
ϵ
−
ϵ
^
∣
|\epsilon-\hat{\epsilon}|
∣ϵ−ϵ^∣增大时
P
(
ϵ
^
;
ϵ
)
P(\hat{\epsilon};\epsilon)
P(ϵ^;ϵ)减小,这符合二项(binomial)分布,如图2.6所示,若
ϵ
\epsilon
ϵ=0.3,则10个样本中测得3个被误分类的概率最大.
一般来说, α \alpha α通常取值为0.01,0.05或0.1。
在假设检验中,我们称, α \alpha α为显著性水平,也称显著度(significance)
称(1- α \alpha α)为置信度(confidence)。
MaNemar主要用于二分类问题,与成对t检验一样也是用于比较两个学习器的性能大小。
主要思想
若两学习器的性能相同,则A预测正确B预测错误数应等于B预测错误A预测正确数,即
e
01
=
e
10
e_{01}=e_{10}
e01=e10,且
∣
e
01
−
e
10
∣
|e_{01}-e_{10}|
∣e01−e10∣服从
N
(
1
,
e
01
+
e
10
)
N(1,e_{01}+e_{10})
N(1,e01+e10)分布。
如下所示的变量
服从自由度为1的卡方分布,即服从标准正态分布N(0,1)的随机变量的平方和,上式只有一个变量,故自由度为1,检验的方法步骤依旧如下:
做出假设–>求出满足显著度的临界点–>给出拒绝域–>验证假设。
卡方分布补充
上述的三种检验都只能在一组数据集上,F检验则可以在多组数据集进行多个学习器性能的比较,基本思想是在同一组数据集上,根据测试结果(例:测试错误率)对学习器的性能进行排序,赋予序值1,2,3…,相同则平分序值,如下图所示:
下面是F检验常用的临界值:
若“H0:所有算法的性能相同”这个假设被拒绝,则说明算法的性能显著不同,需要进行后续检验,来得到具体的算法之间的差异。常用的就是Nemenyi后续检验。
Nemenyi检验计算出平均序值差别的临界值域
下表是常用的
q
a
q_a
qa值,若两个算法的平均序值差超出了临界值域CD,则相应的置信度
1
−
α
1-α
1−α拒绝“两个算法性能相同”的假设。
偏差-方差分解是解释学习器泛化性能的重要工具。
在学习算法中,偏差指的是预测的期望值与真实值的偏差,方差则是每一次预测值与预测值的期望之间的差均方。
实际上,偏差体现了学习器预测的准确度,而方差体现了学习器预测的稳定性。通过对泛化误差的进行分解,可以得到:
一般来说,偏差与方差是有冲突的,这称为偏差-方差窘境(bias-variancedilemma).
在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;
随着训练程度的加深,学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导了泛化错误率;
在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合.
简而言之:在欠拟合时,偏差主导泛化误差,而训练到一定程度后,偏差越来越小,方差主导了泛化误差。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。