当前位置:   article > 正文

机器学习的评估方法_oadusr

oadusr

前提:

测试集与训练集互斥(用于评估的数据集不能用于调参)

留出法

将数据集D划分为两个互斥的集合——训练集S和测试集T,在S上训练出模型后,用T来评估测试误差,作为对泛化误差的估计。

交叉验证法(k折交叉验证法)

将数据集D划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,剩下的1个子集作为测试集,进行k次训练和测试,取这k次返回的测试结果的均值。若k=||D||,则得到交叉验证的特例:留一法。留一法不受样本划分的影响。

自助法

对数据集D进行有放回的采样,重复m次后得到包含m个样本的的训练集S,D-S用作测试集。

留出法交叉验证法自助法
优点操作简单,只需随机把数据集分为两组即可k取值越大结果越准确适合数据集较小时,有利于集成学习
缺点结果受数据分布影响大,不同的划分会得到不同的最优模型。1.k取值越大时间开销也越大
2.测试集太小
产生的训练集改变了初始数据集的分布
注意事项1.保持数据分布一致性(如采用分层采样)
2.测试集不能太大或太小(一般是整体数据集的30%)
3.多次重复划分计算结果均值
数据集太大时k值不能取太大,常见的k值取101.多次采样训练测试计算结果均值
2.有放回的采样
使用场景数据集较大的情况数据集较大的情况(除留一法外)1.数据集较小的情况
2.集成学习
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/908930
推荐阅读
相关标签
  

闽ICP备14008679号