当前位置:   article > 正文

决策树(Decision Tree)_决策树csdn

决策树csdn

目录

一.决策树介绍

二.数学基础

1.信息熵

2、信息增益

三.典型的决策树算法

四.剪枝

1、提出原因

2、剪枝与其处理基本策略

五.python实现

六.问题与解决办法


一.决策树介绍

     决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。

  1. 决策节点:通常用矩形框来表示
  2. 机会节点:通常用圆圈来表示
  3. 终结节点:通常用三角形来表示

      决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。

二.数学基础

1.信息熵

(1)基本定义

        假设样本集合D共有N类,第k类样本所占比例为p_{k},则D的信息熵为:H(D) = -\sum_{k=1}^{N}p_{k}log_{2} p_{k}

信息熵描述的是事件在结果出来之前对可能产生的信息量的期望,描述的是不确定性。

信息熵越大,不确定性越大。H(D)的值越小,则D的纯度越高。

        

注:

(1)计算信息熵时约定 : 如果 p = 0,则 p\log_{2}p = 0

(2)Ent(D)的最小值是0,最大值是log_{2}N

(2)条件熵

H(Y|X)=\sum_{i}P(X=i)H(Y|X=i)

(3)有关定律

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/780398
推荐阅读
相关标签