赞
踩
决策树可用于分类也可用于回归。决策树是一个类似树结构的表示法,每个内部节点表示一个属性的测试,分支表示一个测试的输出,而叶节点就表示类或类的分布。使用训练样本构建决策树时,通常采用自顶向下的递归方式。
对于利用决策树来分类,我觉得“探测”来解释这一过程很合适。对目标样本,不是所有属性一次性就可以决定分类,而是要一步步的。先从一个特征属性的开始判断,如果能直接分类就ok了,如果不行再选一个特征属性再重复上面的判断。如果前几个特征属性可以直接决定类别,别的特征属性的值就会用不上。那么这时就得思考先从哪个特征属性开始?然后是哪个?再后来是哪个?
常用的决策树算法有ID3、C4.5、CART、SLIQ、SPRINT等。
要了解这些算法,先得了解一些基本概念:
信息熵:
信息熵可以衡量事物的不确定性,这个事物不确定性越大,信息熵也越大。
假如事件A的分类划分为(A1,A2,...,An),每部分发生的概率是 (p1,p2,...,pn),那么信息熵可这么定义:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。