赞
踩
决策树是树模型的基础形式。它包含一个根节点,若干个内部节点,以及若干个叶子节点。其中根节点包含全部的样本。每个内部节点代表了一个属性测试,每个子节点对应于一个决策结果(分为多少类就有多少个子节点)。决策树学习的目的在于产生一颗泛化能力强的决策树。
决策树的优点:(1):直观易理解,符合人认知事物的过程。(2)应用范围广,分类回归均可以。缺点就是容易造成过拟合。需要剪枝来适当限制。一般还会通过限制树的高度,或者叶子节点上样本的数量来防止过拟合。
依照划分方法的不同,分为三种算法,ID3,C4.5,CART。根本问题在于如何选择最优的划分属性。进一步理解就是说经过这个节点划分后的节点纯度达到最高。
该算法依据信息增益计算。
信息熵计算: E n t ( D ) = − ∑ k = 1 y p k l o g 2 p k Ent(D)=-\sum_{k=1}^{y}p_klog_2p_k Ent(D)=−∑k=1ypklog2pk
其中p_k代表当前样本中第k类样本所占的比例。Ent(D)的值越小,则D的纯度越高。
假设利用属性a进行分类,a有v个分支节点。其中每个分支节点上的样本数目为 D v D^v Dv。这样就可以在每个分支节点上计算出信息熵。然后给每个分支节点赋予权重 D v D \frac{D^v}{D} DDv,即节点上样本数目越多,则该节点的权重越大。这样就可以得到划分后的信息熵
∑ v = 1 V D
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。