赞
踩
著名的C4.5决策树算法不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优划分属性。
选择信息增益率的目的是:克服ID3算法中用信息增益选择属性时偏向选择取值多的属性。
增益率定义如下:
其中,D: 样本集合,a: 离散属性,IV(a):属性a的“固有值”(intrinsic value)。:属性a上取值为的样本。
属性a的可能取值数目越多(即V越大),IV(a)的值通常会越大。
注意:增益率准则对可取值数目较少的属性有所偏好(从上述公式中得出)。
因此,C4.5算法并不是直接选择增益率最大的候选划分属性,而是使用一个启发式:
从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
下一章讲解CART决策树算法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。