赞
踩
前提:
测试集与训练集互斥(用于评估的数据集不能用于调参)
将数据集D划分为两个互斥的集合——训练集S和测试集T,在S上训练出模型后,用T来评估测试误差,作为对泛化误差的估计。
将数据集D划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,剩下的1个子集作为测试集,进行k次训练和测试,取这k次返回的测试结果的均值。若k=||D||,则得到交叉验证的特例:留一法。留一法不受样本划分的影响。
对数据集D进行有放回的采样,重复m次后得到包含m个样本的的训练集S,D-S用作测试集。
留出法 | 交叉验证法 | 自助法 | |
---|---|---|---|
优点 | 操作简单,只需随机把数据集分为两组即可 | k取值越大结果越准确 | 适合数据集较小时,有利于集成学习 |
缺点 | 结果受数据分布影响大,不同的划分会得到不同的最优模型。 | 1.k取值越大时间开销也越大 2.测试集太小 | 产生的训练集改变了初始数据集的分布 |
注意事项 | 1.保持数据分布一致性(如采用分层采样) 2.测试集不能太大或太小(一般是整体数据集的30%) 3.多次重复划分计算结果均值 | 数据集太大时k值不能取太大,常见的k值取10 | 1.多次采样训练测试计算结果均值 2.有放回的采样 |
使用场景 | 数据集较大的情况 | 数据集较大的情况(除留一法外) | 1.数据集较小的情况 2.集成学习 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。