赞
踩
概念:
决策树:节点间的组织方式像一棵倒树,以attribute为节点,以attribute的不同值为分支。
重点概念:
1. 信息熵:
熵是无序性(或不确定性)的度量指标。假如事件A的全概率划分是(A1,A2,...,An),每部分发生的概率是(p1,p2,...,pn),那信息熵定义为:(通常以2为底数,所以信息熵的单位是bit)
熵越大,越无序。当事件A发生概率很大时,熵很小(所以有负号),越稳定。
由上可知,我们希望构造一棵熵递减的树(属性加得越多,越稳定),而且熵缩小地越快越好,这样可以得到一棵最矮的树。
2. 信息增益:
3. 集合S对于属性A的分裂信息:
4.
5. 树的构造:
树的构造涉及到属性的选择。哪个属性作为根节点呢?首先根据每个属性计算属性相对应的信息熵,然后计算不考虑任何属性的整体信息熵。有了以上两类信息熵,便可以计算针对每个属性的信息增益以及信息增益率。选择信息增益最大的为优先属性(ID3)或选择信息增益率最大的属性为优先属性(C4.5)
6. 图的形象表示:
7. 决策树优点:
a) 训练数据可以包含错误。
b) 训练数据可以包含缺少属性值的实例。
8. 避免过度拟合:
a) 错误率降低修剪
i. 修剪一个结点的步骤:
ii. ·删除以此结点为根的子树,使它成为叶子结点,把和该结点关联的训练样例的最常见分类赋给它。
iii. ·仅当修剪后的树对于验证集合的性能不比原来的树差时才删除该结点。
iv. 反复修剪结点,每次总是选择那些删除后可以最大提高决策树在验证集合上的精度的结点。直到进一步的修剪是有害的为止(即降低了在验证集合上的精度)。
b) 规则后修剪(C4.5)
i. 从训练集合推导出决策树,增长决策树直到尽可能好地模拟训练数据,允许过度拟合发生。
ii. 将决策树转化为等价的规则集合,方法是从根结点到叶子结点的每一条路径创建一条规则。
iii. 通过删除任何能导致估计精度提高的前件(precondition)来修剪(泛化)每一条规则。
iv. 按照修剪过的规则的估计精度对它们进行排序,并按照这样的顺序应用这些规则来分类后来的实例。
9. ID3和C4.5比较
a) ID3用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性;C4.5削弱了这个属性。
b) ID3不能处理连贯属性(相互有关系的属性)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。