当前位置:   article > 正文

决策树分类算法_基于树的分类算法

基于树的分类算法

一、决策树模型

决策树是一种对实例进行分类的树形结构,由结点(node)、有向边(directed edge)组成。

结点有2种类型:内部结点和叶子节点,其中内部结点表示实例样本的一个特征(feature),叶子

节点表示实例的类别(class)。一颗典型的决策树如下图所示:


      可以将决策树看成是一个“if-then”规则的集合,决策树的每条路径就是一条规则,路径上的内

部节点表示样本的特征,有向边表示对特征的判断条件,最后的叶子节点表示样本的类别。


二、决策树学习

      决策树学习本质上是从训练样本集中归纳出一组分类规则,我们需要得到一个与训练数据差别

最小、泛化能力强的决策树模型。决策树学习通常是一个递归的选择最优特征,并根据该特征对训

练数据集进行分割,使得对各个子数据集有最好分类的一个过程。这种方法虽然对训练数据有很好

的分类能力,但是对未知的测试数据却未必会有很好的分类能力,可能会发生过拟合现象。为了抑

制过拟合,需要对生成的决策树进行“剪枝”,使得树变得更简单,使其具有更好的泛化能力。

      如果特征过多,也可以在决策树学习开始的时候,对特征进行选择,只留下对训练数据有很好

的分类能力的特征。特征选择是特征工程的重要问题(特征选择+特征提取)。

      可以看出,决策树学习包括:特征选择、生成决策树、剪枝这3步。目前常用的学习算法有ID3

C4.5(或C5.0)


三、特征选择

      特征选择,是选取对训练数据有较好分类能力的特征,这样可以提高机器学习的效率。如果用

一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征没有分类能力,扔掉这些

特征对分类没有影响,最终只保留有分类能力的特征。特征选择的准则通常是:信息增益信息增

益比

1、熵

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/768586?site
推荐阅读
相关标签
  

闽ICP备14008679号