赞
踩
假设我们现在有这样一个数据集,记录了每次打篮球的时候,当天的天气、温度、湿度、刮风等情况
然后根据历史的数据集,我们用决策树算法生成了如下的图形:
这幅图相信大家很容易看懂,就是当天气是晴天的时候,打篮球;小雨的时候,不打篮球;如果是阴天,那就再看一下温度,温度低的话不打篮球,温度中的话打篮球。
如果用if else来描述这幅图就是
很多人写过类似if else的判断语句。但是你有没有想过,有这么多判断条件,为什么会先选这个条件做if判断,其他条件后做if判断呢?很多时候我们是根据自己的经验和分析,构建if else的判断分支。
而决策树模型会根据大量的历史样本数据,运用算法选择合适的属性作为节点,最终构造出类似流程图的树状结构。
决策树的基本结构包含根节点、子节点(有子节点就有父节点,子和父是相对的,一个子节点可能是下一个分支节点的父节点)、叶子节点。
1.根节点:就是决策树最开始的节点,刚才我们生成的决策树图中,根节点就是“天气”
2.子节点:就是树中间的一些节点,比如“温度”
3.叶子节点:最底部的节点,已经不能再分下去,也是决策的结果
在决策树的算法中,不管是ID3(信息增益),C4.5(信息增益率)还是CART(基尼系数),都在解决同样的问题:
1.选择哪个属性作为根节点
2.选择那些属性作为子节点
3.什么时候停止得到决策的结果,即叶子节点
为什么学决策树算法之前,要学习信息和熵的概念呢?
我们
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。