当前位置:   article > 正文

机器学习算法——决策树2(C4.5决策树算法)

4.5决策树

著名的C4.5决策树算法不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优划分属性。

选择信息增益率的目的是:克服ID3算法中用信息增益选择属性时偏向选择取值多的属性。

增益率定义如下:

Gain_ratio=Gain(D,a)IV(a)

IV(a)=v=1V|Dv||D|log2|Dv||D|

其中,D: 样本集合,a: 离散属性,IV(a):属性a的“固有值”(intrinsic value)。D^v:属性a上取值为a^v的样本。

属性a的可能取值数目越多(即V越大),IV(a)的值通常会越大。

注意:增益率准则对可取值数目较少的属性有所偏好(从上述公式中得出)。

因此,C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用一个启发式:

从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

下一章讲解CART决策树算法。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/519828
推荐阅读
相关标签
  

闽ICP备14008679号