赞
踩
决策树(DT)
1、定义
决策树:决策 + 树我们的决策过程就像树的成长一样。由一个根(节点)不断的发散
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
§ 叶子节点:存放决策结果
§ 内部节点:特征属性,及其对应输出,按照输出选择分支
§ 决策过程:从根节点出发,根据数据的各个属性,计算结果,选择对应的输出分支,直到到达叶子节点,得到结果
客户等级:AAA、A A、A、BBB、BB、B、CCC、CC、C
2、决策树分类算法的流程如下
1、初始化根结点(此时所有的样本均属于根结点)
2、划分选择(选择当前最优的划分属性(信息增益(信息熵)、增益率、基尼指数等)。根据属性取值的不同对观测样本进行分割)
3、对分割后得到的节点重复使用步骤2,直到
(1) 分割得到的观测样本属于同一类
(2) 属性用完或者达到预先设定的条件,如树的深度
3、优缺点
优点
§ 计算简单,易于理解,可解释性强;
§ 比较适合处理有缺失属性的样本;
§ 能够处理不相关的特征;
§ 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
缺点
§ 容易发生过拟合(随机森林可以很大程度上减少过拟合);
§ 忽略了数据之间的相关性;
§ 对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征(只要是使用了信息增益,都有这个缺点,如RF)。
4、应用场景
适用处理的数据类型:数值型和标称型
擅长对人、地点、事物的一系列不同特征、品质、特性进行评估
(标称型目标变量的结果只在有限目标集中取值,如真与假。标称型目标变量主要用于分类)
§ 广泛用于文本分类
§ 贷款风险评估
§ 险种推广预测
§ 发现垃圾邮件、短信
§ 对新闻、网页等标记类别(多分类)
-end-
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。