当前位置:   article > 正文

数据挖掘--决策树C4.5算法(例题)_c4.5算法例题

c4.5算法例题

C4.5算法与ID3算法的不同点:
(1)分支指标采用增益比例
(2)数值属性的处理
(3)处理缺少属性值的训练样本
(4)使用K次迭代交叉验证,评估模型的优劣程度;
(5)根据生成的决策树,可以产生一个if-then规则的集合。

计算的步骤:
1.对数据源进行预处理
2.计算每个属性的信息增益和信息增益率
3.根节点属性每一个可能的取值对应一个子集,对样本子集递归地执行以上Step2过 程,直到划分的每个子集中的观测数据在分类属性上取值都相同,生成决策树
4.根据构造的决策树提取分类规则,对新的数据集进行分类。

C4.5算法例题:
在这里插入图片描述
分割线---------------------------------------------------------------------------------
在这里插入图片描述
在这里插入图片描述
分割线---------------------------------------------------------------------------------
第一种因素:(性别)
在这里插入图片描述
下面的三个式子为熵:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
下面1个式子为信息增益:
在这里插入图片描述
下面1个式子为分裂信息:
在这里插入图片描述
下面1个式子为信息增益率:
在这里插入图片描述

分割线---------------------------------------------------------------------------------
第二种因素:(学生干部)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分割线---------------------------------------------------------------------------------
第三种因素:(综合成绩)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分割线---------------------------------------------------------------------------------
第四种因素:(毕业论文)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分割线---------------------------------------------------------------------------------

对比四种因素的信息增益率,选择最大的作为根节点,这里最大的是(学生干部),之后就是递归解决接下来的节点。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/398813
推荐阅读
相关标签
  

闽ICP备14008679号