赞
踩
学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”
学习器把训练样本自身特点当做所有潜在样本都会具有一样的性质,导致泛化能力下降,这种现象叫做过拟合
用“分层抽样法”将数据集D划分为两个集合:训练集 S S S,测试集 T T T,并且 S ⋂ S\bigcap S⋂ T T T= ∅ \varnothing ∅,用 S S S训练出模型后,用 T T T评估其泛化误差。
用“分层抽样法”将数据集D划分为K个集合,每次训练使用K-1个集合,用另外一个作为测试集,从而可以进行K次训练与测试,最终返回的是K次训练后的均值。
交叉验证法的特例,留一法将数据集D中的m个样本划分为m个集合,每次用m-1个样本(集合)去训练,1个样本(集合)去测试。训练结果较为准确,但开销较大。#### 自助法
将数据集D进行有放回取样m次,得到包含m个样本的数据集 D ‘ D^` D‘,未被取到的样本作为测试集。
性能度量:衡量模型泛化能力的标准
在对比不同模型的能力时,使用不同的性能度量会导致不同的评判结果,这就意味着模型的“好坏”是相对的。什么样的模型是好的,不仅取决于算法和数据,还取决于需求。
给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . . ( x m , y m ) } D=\{(x_1,y_1),(x_2,y_2)....(x_m,y_m)\} D={ (x1,y1),(x2,y2)....(xm,ym)},其中 y i y_i yi是 x i x_i xi真实标记。
回归任务最常用的性能度量是均方误差:
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\displaystyle\sum_{i=1}^m(f(x_i)-y_i)^2 E(f;D)=m1i=1∑m(f(xi)−y
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。