赞
踩
(1)定义挖掘目标
(2)数据取样
随机抽样 | 在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样的概率 |
---|---|
等距抽样 | 如按5%的比例对一个有100组观测值的数据集进行等距抽样,则取第20、40、60、80和第100这5组观测值 |
分层抽样 | 在这种抽样操作时,首先将样本总体分为若干个层次(子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设定不同的概率。这样的抽样结果更具代表性,进而使模型具有更好的拟合精度 |
从起始顺序抽样 | 这样的抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数 |
分类抽样 | 在前述几种的抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集。分类抽样的选取方式就是前述的几种方式,只是抽样以类为单位 |
(3)数据探索
(4)数据预处理
(5)挖掘建模
(6)模型评价
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。