赞
踩
C4.5算法与ID3算法的不同点:
(1)分支指标采用增益比例
(2)数值属性的处理
(3)处理缺少属性值的训练样本
(4)使用K次迭代交叉验证,评估模型的优劣程度;
(5)根据生成的决策树,可以产生一个if-then规则的集合。
计算的步骤:
1.对数据源进行预处理
2.计算每个属性的信息增益和信息增益率
3.根节点属性每一个可能的取值对应一个子集,对样本子集递归地执行以上Step2过 程,直到划分的每个子集中的观测数据在分类属性上取值都相同,生成决策树
4.根据构造的决策树提取分类规则,对新的数据集进行分类。
C4.5算法例题:
分割线---------------------------------------------------------------------------------
分割线---------------------------------------------------------------------------------
第一种因素:(性别)
下面的三个式子为熵:
下面1个式子为信息增益:
下面1个式子为分裂信息:
下面1个式子为信息增益率:
分割线---------------------------------------------------------------------------------
第二种因素:(学生干部)
分割线---------------------------------------------------------------------------------
第三种因素:(综合成绩)
分割线---------------------------------------------------------------------------------
第四种因素:(毕业论文)
分割线---------------------------------------------------------------------------------
对比四种因素的信息增益率,选择最大的作为根节点,这里最大的是(学生干部),之后就是递归解决接下来的节点。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。