赞
踩
1.决策树
使用基尼系数(GI)和信息增益(IG)为决策树计算特征重要性。
(1)信息增益(information gain)
假定当前样本集合D中第k类样本所占我的比例为,则D的信息熵为
(1)
的值越小,则D的纯度越高。
假定离散属性a有V个可能的取值,若使用a来对样本集D进行划分,则会产生V个分支节点,其中第v个分支节点包含了D中所有在属性a上取值为的样本,记为