当前位置:   article > 正文

周志华《机器学习》第二章 模型评估与选择 笔记及习题解答_机器学习概论第二章答案

机器学习概论第二章答案

笔记

经验误差与泛化误差

  学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”

过拟合

  学习器把训练样本自身特点当做所有潜在样本都会具有一样的性质,导致泛化能力下降,这种现象叫做过拟合

评估法

留出法

  用“分层抽样法”将数据集D划分为两个集合:训练集 S S S,测试集 T T T,并且 S ⋂ S\bigcap S T T T= ∅ \varnothing ,用 S S S训练出模型后,用 T T T评估其泛化误差。

交叉验证

  用“分层抽样法”将数据集D划分为K个集合,每次训练使用K-1个集合,用另外一个作为测试集,从而可以进行K次训练与测试,最终返回的是K次训练后的均值。

留一法

   交叉验证法的特例,留一法将数据集D中的m个样本划分为m个集合,每次用m-1个样本(集合)去训练,1个样本(集合)去测试。训练结果较为准确,但开销较大。#### 自助法
  将数据集D进行有放回取样m次,得到包含m个样本的数据集 D ‘ D^` D,未被取到的样本作为测试集。

性能度量

性能度量:衡量模型泛化能力的标准
在对比不同模型的能力时,使用不同的性能度量会导致不同的评判结果,这就意味着模型的“好坏”是相对的。什么样的模型是好的,不仅取决于算法和数据,还取决于需求。

给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . . ( x m , y m ) } D=\{(x_1,y_1),(x_2,y_2)....(x_m,y_m)\} D={ (x1,y1),(x2,y2)....(xm,ym)},其中 y i y_i yi x i x_i xi真实标记。

回归任务最常用的性能度量是均方误差:
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\displaystyle\sum_{i=1}^m(f(x_i)-y_i)^2 E(f;D)=m1i=1m(f(xi)y

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/889531
推荐阅读
相关标签
  

闽ICP备14008679号