赞
踩
我们以是否买房为例子给大家介绍一下决策树算法的使用,数据集如下(仅做演示,不代表真实情况)
地段 | 近地铁 | 面积 | 单价(万) | 是否购买 |
三环 | 是 | 60 | 8 | 是 |
三环 | 是 | 80 | 8 | 否 |
三环 | 否 | 60 | 7 | 是 |
三环 | 否 | 80 | 7 | 否 |
五环 | 是 | 60 | 7 | 是 |
五环 | 是 | 80 | 7 | 否 |
五环 | 否 | 60 | 6 | 是 |
五环 | 否 | 80 | 6 | 是 |
六环 | 是 | 60 | 6 | 是 |
六环 | 是 | 80 | 5.5 | 是 |
六环 | 否 | 60 | 5 | 否 |
六环 | 否 | 80 | 5 | 否 |
从上表中我们可以看到,确定可以购买的数量有7个,不购买的数量有5个,共数是12个。按信息熵的计算公式我们可以得出此数据集的信息熵为:
按地段(用A1表示)划分,三环(D1),五环(D2),六环(D3),来计算信息增益
按是否近地铁(用A2表示)划分,是(D1),否(D2), 来计算信息增益
按面积(用A3表示)划分,60平(D1),80平(D2), 来计算信息增益
按单价划分(用A4表示),5w(D1), 5.5w(D2), 6w(D3), 7w(D4), 8w(D5) , 来计算信息增益
通过以上结果我们可以知道,对于信息熵的降低量(就是说人们决定是否买房的决定因素的权重)由高到低分别为:单价、面积、地段、是否近地铁。
以上算法就是决策树算法中ID3算法所采用的逻辑。
注:数量仅作为演示用的测试数据,不代表真实决策依据。
关注微信公众号“挨踢学霸”,获取更多人工智能技术文章
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。