赞
踩
一、什么是C4.5决策树
决策树概念:机器学习之决策树–原理分析
C4.5决策树是由Ross Quinlan在ID3决策树–机器学习之决策树–ID3–基础上提出的一种改进版的决策树。
C4.5主要改进了ID3中的一些问题:
二、什么是信息增益率?
在ID3决策树中,已经详细的介绍了信息增益的概念和计算方法。
那信息增益率从字面上理解,不就是 信息增益/父节点信息熵 吗? NO!!!
这里的信息增益率和传统理解的比率有点区别。下面来详细介绍。
C4.5在选择特征的第一步和ID3一样,计算经过每个特征划分之后的信息增益。得到计算信息增益率的分子,以特征A为例,它的信息增益为:
在计算分母时,并不是用的父节点的信息熵,而是用经过某个特征划分之后的“分裂信息”。以特征A为例,其将一个样本数为N的数据集划分为V类,且N=|A1|+|A2|+…+|Av|。则经过特征A划分之后的分裂信息可以由下面公式进行计算。
那么经过特征A划分后,它的信息增益率就可以计算出来了。
同样的道理进行所有特征的信息增益率计算之后,选择信息增益率最大的那个特征作为划分的依据。这样就很好的解决了噪声的影响,也解决了ID3倾向于选择类别多的特征进行划分的弊端。
切记:信息增益率的分母不是父节点的信息熵,而是经过特征划分之后的分裂信息!
三、C4.5如何做连续型数值类别的划分?
其实很简单,因为样本数量有限,所以C4.5在处理时,仍然将连续型的数值当作离散型的类别来做。
C4.5在做连续型数据时,该步骤总是二叉的。因为其对一个用于分割的数值θ,用≤θ和>θ两个分支进行判断,经过≤θ和>θ划分为两个子集,然后对两个子集计算信息增益率,遵从信息增益率最大的原则,选择信息增益率最大的划分方式。
那么这里就有一个问题了:如何确定那个用于划分的数值θ,来进行≤θ和>θ的分割呢?
C4.5的做法是:首先将该属性的所有值按从小到大排序,然后取每两个相邻的数的中间值为θ,依次进行分裂,计算信息增益率,最后做出比较。
比如一个属性值集合为:5,7,10,3,6,1
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。