周志华《机器学习》第二章模型评估与选择笔记及习题解答_机器学习概论第二章答案

作者：天景科技苑 | 2024-07-27 09:13:50

踩

机器学习概论第二章答案

笔记

学习器在训练集上的误差称为“训练误差”或“经验误差”，在新样本上的误差称为“泛化误差”

学习器把训练样本自身特点当做所有潜在样本都会具有一样的性质，导致泛化能力下降，这种现象叫做过拟合

用“分层抽样法”将数据集D划分为两个集合：训练集 $S$ ,测试集 $T$ ，并且 $S\bigcap$ $T$ = $\varnothing$ ，用 $S$ 训练出模型后，用 $T$ 评估其泛化误差。

用“分层抽样法”将数据集D划分为K个集合，每次训练使用K-1个集合，用另外一个作为测试集，从而可以进行K次训练与测试，最终返回的是K次训练后的均值。

交叉验证法的特例，留一法将数据集D中的m个样本划分为m个集合，每次用m-1个样本(集合)去训练，1个样本(集合)去测试。训练结果较为准确，但开销较大。#### 自助法
将数据集D进行有放回取样m次，得到包含m个样本的数据集 $D^`$ ,未被取到的样本作为测试集。

性能度量：衡量模型泛化能力的标准
在对比不同模型的能力时，使用不同的性能度量会导致不同的评判结果，这就意味着模型的“好坏”是相对的。什么样的模型是好的，不仅取决于算法和数据，还取决于需求。

给定数据集 $D=\{(x_1,y_1),(x_2,y_2)....(x_m,y_m)\}$ ，其中 $y_i$ 是 $x_i$ 真实标记。

回归任务最常用的性能度量是均方误差：
$E(f;D)=\frac{1}{m}\displaystyle\sum_{i=1}^m(f(x_i)-y_i)^2$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/天景科技苑/article/detail/889531