赞
踩
决策树中的熵、信息增益、信息增益比以及基尼指数
决策树是机器学习的一种常用算法,可解释性强,可提取规则。决策时就是学习数据内部规律,找到数据之间的联系。决策树的构建就是递归选择最优特征,并根据该特征对数据进行分割,但是决策树是怎么选择最优的分裂属性呢?
决策树特征的选择有三种方法:信息增益、信息增益比、Gini系数。
为了演示上面三种分裂属性的选择,我们选用一个例子来加以说明:通过数据来判断该生物是否为鱼类。有如下数据集。
名称 | 用鳃呼吸 | 有无鱼鳍 | 是否为鱼 |
---|---|---|---|
鲨鱼 | 1 | 1 | 1 |
鲫鱼 | 1 | 1 | 1 |
河蚌 | 1 | 0 | 0 |
鲸 | 0 | 1 | 0 |
海豚 | 0 | 1 | 0 |
Gini系数:
Gini系数的计算公式如下:
其中,D表示数据集全体样本,p_n表示每种类别出现的概率。
我们计算以上表达式,即加入特征X以后,数据不纯度减小的程度
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。