赞
踩
归纳:从特殊到一般的“泛化”过程,即从具体事实归结出一般性规律
演绎:从一般到特殊的“特化”过程,即从基础原理推演吃u具体状况
假设空间:色泽、根蒂、敲声分别有3、2、2种取值,则假设空间规模为 4×3×3+1 = 37
版本空间:现实问题中常面临很大的假设空间,但可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,称为“版本空间”
奥卡姆剃刀原则:若有多个假设与观察一致,则选择最简单的那个
没有免费的午餐(NFL)定理:没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法
错误率(error rate):分类错误的样本数占样本总数的比例
精度(accuracy) = 1-错误率
误差(error): 学习器实际预测输出与样本的真实输出之间的差异
a. 训练误差(training error)/经验误差:学习器在训练集上的误差
b. 泛化误差(generalization error):学习器在新样本上的误差
过拟合(overfitting):学习器把训练样本学的“太好”,把训练样本自身特点当作潜在样本都会具有的一般性质,导致泛化性能下降(原因:学习能力过于强大;过拟合不可避免)
欠拟合(unerfitting):对训练样本的一般性质尚未学好(原因:学习能力低下)
使用测试集(testing set)测试学习器对新样本的判别能力,以测试集上的“测试误差”作为泛化误差的近似。通常假设测试样本也是从样本真实分布中独立同分布采样而得,但测试集应尽量与训练集互斥。
只有一个包含m个样例的数据集D,从中产生出训练集S和测试集T的常见做法:
① 留出法
直接将数据集D划分成两个互斥的集合,一个为训练集一个为测试集。划分尽量保持数据分布的一致性,避免因数据划分过程引入的额外的偏差而对最终结果产生影响(例如在分类任务重,至少要保持样本的类别比例相似,可以分层采样)
单次留出法得到的结果往往不够稳定可靠,一般要进行若干次随机划分、重复实验评估后取平均值为留出法的评估结果。
窘境:若训练集S包含大多数样本,则性能练出来的模型更接近用D训练的模型,T比较小,所以评估结果不够稳定准确;若训练集T多包含一些样本,则训练集S与D差别较大,降低了评估结果的保真性(fidelity)。这个问题没有完美的解决方法,一般将大约2/3~4/5样本用于训练,剩余样本用于测试。
② 交叉验证法
先将数据集D划分成k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即从D种通过分层采样得到。每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集。得到k组训练/测试集,进行k次训练和测试,返回k个测试结果的均值。
评估结果的稳定性和保真性在很大程度上取决于k的取值,k通常取10,也有5,20.
为减小因样本划分不同而引入的差别,通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如10次10折交叉验证
特例——留一法:k = m每个子集只包含一个样本。留一法的评估结果往往被认为比较准确,但数据量较大时,训练模型的开销难以忍受。
③ 自助法
以“自助采样法(bootstrap sampling)”为基础。给定m个样本的数据集D,每次随机从D中挑选一个样本拷贝进D',过程重复m次,得到包含m个样本的数据集D'。显然,D中有一部分样本会在D'中多次出现,而另一部分样本不出现。样本在m次采样中始终不被采到的概率是(1-1/m)^m,取极限约等于0.368.将D'作为训练集,D做测试集,有1/3没在训练集中出现过的样本做测试。这样的测试结果称为“包外估计”
优点:在数据集较小,难以有效划分S/T时很有用。而且自助法能从初始数据中产生多个不同的训练集,对集成学习等方法有很大好处。
缺点:产生的数据集改变了初始数据集的分布,会引入估计偏差。因此在初始数据量足够时,常用留出法和交叉验证法。
调参(parameter tuning)与最终模型:
对每个参数选定一个范围和变化步长,例如在[0,0.2]范围内以0.05作为步长,实际要评估的候选参数值有5个。
给定m个样本的数据集D,训练集是只是用了D中的一部分数据训练模型。所以在模型选择完成后,学习算法和参数配置已选定,此时应该用D重新训练模型,这才是交给用户的最终模型
回归任务最常用的性能度量是“均方误差(mean squared error)”
① 错误率与精度
② 查准率、查全率、F1
分类结果的混淆矩阵: 查准率P、查全率:
查准率和查全率是一对矛盾的度量。只有在一些简单任务重,查全率和查准率才会都很高
以查准率为纵轴,查全率为横轴作图,得到P-R曲线。若有一个学习器的P-R曲线能够被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;如果曲线有交叉,则难以一般性地断言两者孰优孰劣,只能在具体的查准率或查全率条件下进行比较。也可以比较P-R曲线下面积的大小,在一定程度上代表了学习器在查准率和查全率从上取得“双高”的比例。
平衡点(Break-Event Point, BEP):是查准率 = 查全率时的取值,可以用来比较两个学习器的性能。但BEP过于简化,一般用F1
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。