当前位置:   article > 正文

01 决策树(DT)_决策树dt算法

决策树dt算法

决策树(DT

 

1、定义

决策树:决策 + 树我们的决策过程就像树的成长一样。由一个根(节点)不断的发散

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

 

§ 叶子节点:存放决策结果

§ 内部节点:特征属性,及其对应输出,按照输出选择分支

§ 决策过程:从根节点出发,根据数据的各个属性,计算结果,选择对应的输出分支,直到到达叶子节点,得到结果


                            客户等级:AAAA AABBBBBBCCCCCC

 

 

2、决策树分类算法的流程如下

1、初始化根结点此时所有的样本均属于根结点

2、划分选择选择当前最优的划分属性(信息增益(信息熵)、增益率、基尼指数等)。根据属性取值的不同对观测样本进行分割

3、对分割后得到的节点重复使用步骤2,直到

(1) 分割得到的观测样本属于同一类

(2) 属性用完或者达到预先设定的条件,如树的深

 

3、优缺点

优点

§ 计算简单,易于理解,可解释性强;

§ 比较适合处理有缺失属性的样本;

§ 能够处理不相关的特征;

§ 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

缺点

§ 容易发生过拟合(随机森林可以很大程度上减少过拟合);

§ 忽略了数据之间的相关性;

§ 对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征(只要是使用了信息增益,都有这个缺点,如RF)。

 

 

4、应用场景

适用处理的数据类型:数值型和标称型 

擅长对人、地点、事物的一系列不同特征、品质、特性进行评估

(标称型目标变量的结果只在有限目标集中取值,如真与假标称型目标变量主要用于分类)

 

§ 广泛用于文本分类

§ 贷款风险评估

§ 险种推广预测

§ 发现垃圾邮件、短信

§ 对新闻、网页等标记类别(多分类)

 

-end-

 

 

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号