赞
踩
目录
决策树是一种用于分类与回归问题的监督学习方法。决策树学习的目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。核心思想:通过根据数据特征不断分割数据集,将数据划分成具有相似特征的子集,从而实现分类或回归的目标。决策树用于在每个内部节点上根据一些属性值进行决策,最终到达叶子节点,给出一个分类或回归的结果。每个内部节点表示一个属性测试,每个分支代表一个测试结果,而每个叶子节点代表一种类别。
特征测试:在每个内部节点,决策树根据某个特征的值将数据集分成两个或多个子集。这个特征测试的目标是选择能够最好地将数据划分为不同类别或值的特征。
内部节点:表示一个特征或属性。
叶子节点:是决策树的最末端节点,表示数据的最终分类或回归值。每个叶子节点包含一个类别标签或一个数值。
决策路径:从根节点到叶子节点的路径构成了一个决策路径,它代表了对数据的一系列特征测试和决策。
决策规则:决策树可以转化为一组简单的决策规则,这些规则对于新的数据点可以用来进行分类或回归预测。
1)数据收集:收集包含特征和目标变量的训练数据集。特征用于做出决策的属性,目标变量是要预测或分类的值。
2)特征选择:选择一个用于构建决策树的特征,这个特征将成为根节点。
3)数据分裂:使用所选的特征将数据集分成多个子集,每个子集包含具有相似特征值的数据点。
4)递归构建子树:对于每个子集,重复特征选择和数据分裂的步骤,直到满足停止条件。停止条件可以是树的深度达到预定值,节点包含的样本数小于某一阈值,或者节点的基尼系数或信息增益低于某一阈值。在每次分裂后,生成新的节点并继续构建子树。
5)叶子节点赋值:当停止条件满足时,将叶子节点分配给一个类别标签,即决策树的叶子节点,表示最终的决策结果。
6)剪枝:为了避免过拟合,可以对构建好的树进行剪枝,即删除一些子树或节点,以提高模型的泛化能力,同时减少时间复杂度和空间复杂度。
信息熵是决策树中用来度量数据不纯度的指标
假定当前样本集合D中第k类样本所占的比例为pk ( k = 1 , 2 , . . . , ∣ y ∣),则D的信息熵定义为
若p = 0,则plog2p=0
Ent(D)的值越小,则D的纯度越高。Ent(D)的最小值为0,最大值为log2|y|。
信息增益是决策树中用来选择最佳属性进行分割的指标。
假定离散属性a有V个可能的取值{a1, a2, ..., aV},若使用a来对样本集D进行划分,则会产生V VV个分支结点,其中第v个分支结点包含了D中所有在属性a上取值为的样本,即。
信息增益越大,使用属性a对样本集D进行划分所获得的纯度提升越大。
信息增益对可取值数目较多的属性有偏好。
增益率是信息增益的一种改进版本,它考虑了属性取值的多样性。
IV(a)称为属性a的固有值,属性a的可能取值数目越多(即V越大),则IV(a)的值通常就越大
增益率的优点是能够减少对取值多的属性的偏好,使决策树更加平衡。
基尼系数是用于度量数据不纯度的另一种指标。
假设D有K个类,样本点属于第k类的概率为
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。