当前位置:   article > 正文

机器学习算法系列(三):决策树分类模型_分类决策树的叶子节点中都是同一类别吗

分类决策树的叶子节点中都是同一类别吗

1.分类决策树介绍:

决策树是树模型的基础形式。它包含一个根节点,若干个内部节点,以及若干个叶子节点。其中根节点包含全部的样本。每个内部节点代表了一个属性测试,每个子节点对应于一个决策结果(分为多少类就有多少个子节点)。决策树学习的目的在于产生一颗泛化能力强的决策树。

决策树的优点:(1):直观易理解,符合人认知事物的过程。(2)应用范围广,分类回归均可以。缺点就是容易造成过拟合。需要剪枝来适当限制。一般还会通过限制树的高度,或者叶子节点上样本的数量来防止过拟合。

2.决策树停止的三种情况:

  • 当前节点所包含的所有样本都属于同一类,无需再划分。
  • 当前节点上所有属性的值都相同,不能再划分。此时将 类别设置为当前节点上所含样本最多的类别。
  • 当前节点包含的样本集为空,无法划分。此时将类别设置为当前节点父节点上所含样本最多的类别。

3.划分方法

依照划分方法的不同,分为三种算法,ID3,C4.5,CART。根本问题在于如何选择最优的划分属性。进一步理解就是说经过这个节点划分后的节点纯度达到最高。

3.1 ID3算法

该算法依据信息增益计算。

信息熵计算: E n t ( D ) = − ∑ k = 1 y p k l o g 2 p k Ent(D)=-\sum_{k=1}^{y}p_klog_2p_k Ent(D)=k=1ypklog2pk

其中p_k代表当前样本中第k类样本所占的比例。Ent(D)的值越小,则D的纯度越高

假设利用属性a进行分类,a有v个分支节点。其中每个分支节点上的样本数目为 D v D^v Dv。这样就可以在每个分支节点上计算出信息熵。然后给每个分支节点赋予权重 D v D \frac{D^v}{D} DDv,即节点上样本数目越多,则该节点的权重越大。这样就可以得到划分后的信息熵

∑ v = 1 V D

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/357165
推荐阅读
相关标签
  

闽ICP备14008679号