当前位置:   article > 正文

决策树(Decision Tree)总结_决策树的概念英语

决策树的概念英语

决策树(Decision Tree,简称:DT)

决策树精选幕布 @转载

基本的介绍
顾名思义,决策树这个名字可以分为两部分:决策

决策规则
分类(离散值):样本标签少数服从多数
回归(连续值):所有样本的均值

:这个算法模型是以树状的形态进行表示的。

决策树是一个有监督算法,它既可以作为分类算法,也可以作为回归算法。
决策树的生成只考虑局部最优,相对的,决策树剪枝则考虑全局最优。

概念

决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一棵由多个判断节点组成的树

常见的决策树类型:
在这里插入图片描述
所以接下来介绍一些决策树算法,将从以下5个方面来介绍:
ID3
C4.5
CART
剪枝
决策树的优缺点

ID3的定义

ID3算法1986年Quinlan首先提出的,该算法是以信息论为基础,以信息熵和信息增益为衡量标准,从而实现对数据的归纳分类。是生成最小的树型结构,而是一个启发式算法
1. 信息熵
简介:这个概念最早起源于物理学,在物理学中是用来度量一个热力学系统的无序程度,而在信息学里面,熵是对不确定性的度量。在1986年香农引入了信息熵,将其定义为离散随机事件出现的概率,一个系统越是有序,信息熵就越低,反之一个系统越是混乱,它的信息熵就越高。所以信息熵可以被认为是系统有序化程度的一个度量。

公式:
在这里插入图片描述
其中pi为第i个类别的概率,S是样例集合

举例:
全部的西瓜数据集共有17个好坏样本。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
即香浓熵为: 0.998

2. 信息增益

公式:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里根蒂、脐部、触感三个属性均取得了最大的信息增益,可任取其中之一作为划分属性,再次划分得到子分支。
就这样不断的划分,直到遇到终止条件:
 当前节点包含的样本全属于同一类别,无需划分;
 当前属性集为空,或是所有样本再所有属性上取值相同,无法划分;
 当前节点集合包含的样本集合为空,不能划分。
在这里插入图片描述

总结:
ID3算法的核心是在决策树各个子节点上应用信息增益准则选择特征,递归的构建决策树,具体方法是:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;再对子节点递归调用以上方法,构建决策树。

ID3算法只有树的生成,所以该算法生成的树容易产生过拟合,分得太细,考虑条件太多。
ID3 算法的缺点
1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值 多的属性。
2.不能处理连续属性。

C4.5的定义

C4.5算法与ID3算法相似,C4.5算法对ID3算法进行了改进。

CART的定义

CART(classification and regression tree):分类与回归树,既可以用于分类也可以用于回归。

常见决策树类型及剪枝

1为什么要剪枝
一般情况下,决策树会将模型分成最优的形式,所以会导致过拟合现象的发生,所以进行剪枝处理
原因1: 噪声、 样本冲突, 即错误的样本数据。
原因2: 特征即属性不能完全作为分类标准。
原因3: 巧合的规律性, 数据量不够大。
2常用的剪枝方法
**预剪枝:**提前处理,计算量小
主要有三种:
(1)每一个结点所包含的最小样本数目,例如10,则该结点总样本数小于10时,则不再分;
(2)指定树的高度或者深度,例如树的最大深度为4;
(3)指定结点的熵小于某个值,不再划分。随着树的增长, 在训练样集上的精度是调上升的, 然而在独立的测试样例上测出的精度先上升后下降。
后剪枝,在已生成过拟合决策树上进行剪枝,可以避免欠拟合,计算量大。
主要有四种:
(1)REP-错误率降低剪枝
(2)PEP-悲观剪枝
(3)CCP-代价复杂度剪枝
(4)MEP-最小错误剪枝

结论:
决策树的剪枝,由于生成的决策树存在过拟合问题,需要对它进行剪枝,以简化后学到的决策树。决策树的剪枝,往往从已生成的树上剪掉一些叶节点或叶节点以上的子树,并将其父节点或根节点作为新的叶节点,从而简化生成的决策树模型。

ID3不能剪枝
C4.5和CRAT都可以剪枝

决策树的优缺点

决策树的优点:

(1)具有可读性,如果给定一个模型,那么过呢据所产生的决策树很容易推理出相应的逻辑表达。
(2)分类速度快,能在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

决策树的缺点

(1)对未知的测试数据未必有好的分类、泛化能力,即容易发生过拟合现象,此时可采用剪枝或随机森林

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/847485
推荐阅读
相关标签
  

闽ICP备14008679号