赞
踩
一、决策树模型
决策树是一种对实例进行分类的树形结构,由结点(node)、有向边(directed edge)组成。
结点有2种类型:内部结点和叶子节点,其中内部结点表示实例样本的一个特征(feature),叶子
节点表示实例的类别(class)。一颗典型的决策树如下图所示:
可以将决策树看成是一个“if-then”规则的集合,决策树的每条路径就是一条规则,路径上的内
部节点表示样本的特征,有向边表示对特征的判断条件,最后的叶子节点表示样本的类别。
二、决策树学习
决策树学习本质上是从训练样本集中归纳出一组分类规则,我们需要得到一个与训练数据差别
最小、泛化能力强的决策树模型。决策树学习通常是一个递归的选择最优特征,并根据该特征对训
练数据集进行分割,使得对各个子数据集有最好分类的一个过程。这种方法虽然对训练数据有很好
的分类能力,但是对未知的测试数据却未必会有很好的分类能力,可能会发生过拟合现象。为了抑
制过拟合,需要对生成的决策树进行“剪枝”,使得树变得更简单,使其具有更好的泛化能力。
如果特征过多,也可以在决策树学习开始的时候,对特征进行选择,只留下对训练数据有很好
的分类能力的特征。特征选择是特征工程的重要问题(特征选择+特征提取)。
可以看出,决策树学习包括:特征选择、生成决策树、剪枝这3步。目前常用的学习算法有ID3
、C4.5(或C5.0)。
三、特征选择
特征选择,是选取对训练数据有较好分类能力的特征,这样可以提高机器学习的效率。如果用
一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征没有分类能力,扔掉这些
特征对分类没有影响,最终只保留有分类能力的特征。特征选择的准则通常是:信息增益或信息增
益比。
1、熵
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。