赞
踩
1.定义
决策树是基于树形结构进行决策的一种机器学习方法。
在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。
一般,一颗决策树包含一个根结点、若干个内部结点和若干个叶节点。叶节点对应于决策结果,其他每个节点对应于一个属性测试。每个结点包含的样本集合根据属性测试结果被划分到子节点中;根结点包含全部样本集。从根结点到每个叶结点的路径对应了一个判定测试序列。
决策树的生成是一个自顶向下的递归过程,其基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处的熵值为零。
在决策树算法中有三种情形导致递归返回:
1)当前节点包含的样本属于同一类,无需划分;
2)当前属性集为空,无法划分。此情况下,将当前结点标记为叶节点,并将其类别设定为所含样本最多的类别;利用当前结点的后验分布;(有样本无属性进行划分)
3)当前结点包含的样本集合为空,不能划分。此情况下,将当前结点标记为叶节点,将其类别设定为其父结点所含样本最多的类别;利用父结点的先验分布(无样本有属性)
2.决策树算法特点
1)决策树学习算法的最大优点是,它可以自学习。在学习过程中,不需要使用者了解过多背景知识,只需要对训练实例进行良好的标注,就能够进行学习。
2)属于有监督学习
3)从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则
3.决策树学习的生成算法
关键点:如何选择最优 划分属性
目标:决策树分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。
根据不同的目标函数,建立决策树主要有以下三种算法:
取值多的属性&#x
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。