当前位置:   article > 正文

决策树中的熵、信息增益、信息增益比以及基尼指数_共有5条数据,“是否为鱼”为类标号,属性有2个,分别是“是否用鳃呼吸”,“有无鱼鳍

共有5条数据,“是否为鱼”为类标号,属性有2个,分别是“是否用鳃呼吸”,“有无鱼鳍

决策树中的熵、信息增益、信息增益比以及基尼指数

决策树是机器学习的一种常用算法,可解释性强,可提取规则。决策时就是学习数据内部规律,找到数据之间的联系。决策树的构建就是递归选择最优特征,并根据该特征对数据进行分割,但是决策树是怎么选择最优的分裂属性呢?

决策树特征的选择有三种方法:信息增益、信息增益比、Gini系数。

为了演示上面三种分裂属性的选择,我们选用一个例子来加以说明:通过数据来判断该生物是否为鱼类。有如下数据集。

名称 用鳃呼吸 有无鱼鳍 是否为鱼
鲨鱼 1 1 1
鲫鱼 1 1 1
河蚌 1 0 0
0 1 0
海豚 0 1 0

Gini系数

Gini系数的计算公式如下:
在这里插入图片描述
在这里插入图片描述
其中,D表示数据集全体样本,p_n表示每种类别出现的概率。
我们计算以上表达式,即加入特征X以后,数据不纯度减小的程度࿰

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/763779
推荐阅读
相关标签
  

闽ICP备14008679号