当前位置:   article > 正文

机器学习西瓜书笔记(二)-----------模型评估与选择_机器学习算法测试集偶然性

机器学习算法测试集偶然性

模型评估与选择

在这诸多模型当中,如何选择最佳的模型呢?这个过程,称之为模型选择。

针对某个具体的任务, 通常会有多种模型可供选择, 对同一个模型也会有多组参数, 可以通过分析, 评估模型的泛化误差, 选择泛化误差最小的模型;

首先,要将数据集分为若干部分,其中一部分用于训练模型,另一部分用于测试模型的泛化能力;然后,对于测试的结果,我们给定一个性能度量参数,从数值上比较不同模型的泛化能力;再然后,通过复杂的比较检验方法,对不同的模型性能进行比较;最后,对于模型的性能,尝试给出一个解释。

错误率error rate:分类错误的样本数占总数的比例;

精度accuracy:分类正确的样本数占总数的比例;

错误率+精度=1;

误差error:学习器的实际预测输出与样本的真实输出之间的差异;

训练误差training error、经验误差empirical error:学习器在训练集上的误差;

泛化误差generalization error:学习器在新样本上的误差;

过拟合overfitting:学习器把训练样本训练得“太好”,把训练样本自身的一些特性,当成了所有潜在样本都会具有的一般性质,导致泛化能力下降;

欠拟合underfitting:对于训练样本的一般性质都没哟学习好;

欠拟合易于克服,过拟合难于克服,且无法彻底避免;

一般来说,即使得到了一个这样的模型:对于所有训练数据集,其精度为100%。这样的学习器在多数情况下的表现都不好。

 

  • 评估方法 

用户评估模型的泛化性能误差,然后选择泛化误差最小的一个模型;

因此,除了给定一个训练集用于学习模型,还要给定一个测试集用于测试学习器,通过对数据集的划分,可以将之划分为训练集和测试集,对于深度学习而言&#x

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/码创造者/article/detail/889585
推荐阅读
相关标签
  

闽ICP备14008679号