赞
踩
决策树是最常见的机器学习方法之一,对该方法的原理,前人之述备矣,在这里不再详细介绍。本文主要是对决策树的一些重要的概念及其应用进行讲述。
决策树是什么呢?我们先通过一个例子来看看,下面是一段情景对话:
母亲:女儿,你也不小了,还没对象!妈很揪心啊,这不托人给你找了个对象,明儿去见个面吧!
女儿:年纪多大了?
母亲:25
女儿:长的帅不帅?
母亲:挺帅的!
女儿:收入高不高?有没有上进心?
母亲:收入还行,蛮有上进心!
将上述过程用决策树表示参考博文:
通过上述例子,可以看到决策树的组成与结构,在这颗决策树上,女儿一步步选择重要特征(年龄、长相、收入等)并构建特征分割方式(年纪大小、长相帅不帅、收入高不高),让自己进行最优的决策。
没有要决策的对象,一切都无从谈起。就是例子中母亲托人找对象的过程。
根据特征的重要度,来构建子节点,越重要的特征越靠近根节点。也就是女儿觉得那些条件最重要,当最重要的条件不满足,就没必要继续了。
根据特征的分裂方式,来划分数据集,也就是根据条件区别对待。就是年纪太大的压根就不予考虑,年龄合适的才进一步考察。其实在实际构建树模型的时候,2和3是通过遍历的方式同时进行的。
那么怎样的分裂方式才算好呢?
通俗来说就是通过越少的分裂,达到更好的区分度。用术语说就是当选择了这个条件之后,系统的不确定度下降最多。这个特征就是我们要重视的feature!
以下是常用的一些方法来实现最优分裂:
(1)ID3算法
(2)C4.5算法
(3)CART算法
(1)导入库函数
## 基础函数库
import numpy as np
## 导入画图库
import matplotlib.pyplot
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。