当前位置:   article > 正文

C4.5算法数值分析过程_c4.5算法处理数值属性的过程

c4.5算法处理数值属性的过程
  1.   数据集

 

上述数据集有3个属性,属性集合A={ 天气,湿度,有雨? }, 类别标签有两个,类别集合L={玩,不玩}。

  1.   数值计算过程

根节点包含样本集D中全部14个样例,各样例的权值均为1

  1.  属性“天气”

该属性上无缺失值的样例子集D’包含13个样例即|D’|=13

|C1,D’|=5(“不玩”)

|C2,D’|=8(“玩”)

D’的信息熵

 

“晴”的有5个, 其中2个“玩”,  3个“不玩”

“多云”的有3个, 其中3个“玩”,0个“不玩”

“雨”的有5个, 其中3个“玩”,  2个“不玩”

“缺失”的有1个,其中1个“玩”,0个“不玩”

令D1’、D2’、D3’分别表示在属性“天气”上取值为“晴”、“多云”、“雨”的样本子集

 

按属性“天气”对D’划分后,则D’ 的信息熵

 

样本集D上属性“天气”的信息增益

 

2. 属性“湿度(直接以<=75和>75划分)

|D’|=14

|C1,D’|=5(“不玩”)

|C2,D’|=9(“玩”)

D’的信息熵

 

湿度“>75”的有9个, 其中5个“玩”,  4个“不玩”

湿度“<=75”的有5个, 其中4个“玩”,1个“不玩”

令D1’、D2’分别表示在属性“湿度”上取值为“>75”、“<=75”的样本子集

 

按属性“湿度”对D’划分后,则D’ 的信息熵

 

样本集D上属性“湿度”的信息增益

 

3. 属性“有雨?”

|D’|=14

|C1,D’|=5(“不玩”)

|C2,D’|=9(“玩”)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/720001
推荐阅读
相关标签
  

闽ICP备14008679号