赞
踩
训练过程中,努力使「经验误差(训练误差)」最小。
无法彻底解决,只能「缓解」,过拟合是机器学习面临的关键障碍。
(1)在决策树学习中扩展分支
(2)在神经网络学习中增加训练轮数
(3)...
将数据D划分为2个互斥的集合S和T。S作为训练集,另一个T作为测试集(至少含30个样例)。
常见的样本分配方案:是将大约2/3~4/5的样本用于训练,剩余样本用于测试。
注意:
(1)S和T中的样本类别比例需要一致。
(2)通过不同划分方式多次取平均值作为模型评估结果。
又称“k倍交叉验证/k折交叉验证”,将样本数据集D中的m个样本划分k(k常用的取值为10、5、15...)个大小相似、数据分布一致(主要指正负样本的分布一致)且互斥的子集(D1、D2、...、Dk),k≦m。
D=D1 ∪ D2 ∪...∪ Dk(Di ∩ Dj=∅且i≠j且m≧k≧2)
每次用k-1个子集作为训练集,1个子集作为测试集。共k次交叉测试结果,取平均值。下图为k=10的时候,10折交叉验证示意图:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。