赞
踩
我们用这个数据集来构造决策树,判断一个新的西瓜是否为好瓜。
首先观察数据集 D D D,发现数据集 D D D中有好瓜和坏瓜两个类别,其中好瓜占比 p 1 = 8 17 p_1=\frac {8}{17} p1=178,坏瓜占比 p 2 = 9 17 p_2=\frac {9}{17} p2=179,计算出数据集 D D D的信息熵为
E n t ( D ) = − ∑ k = 1 2 p k l o g 2 p k = − ( 8 17 l o g 2 8 17 + 9 17 l o g 2 9 17 ) = 0.998 Ent(D)=-\sum_{k=1}^{2}p_klog_2p_k=-(\frac{8}{17}log_2\frac{8}{17}+\frac{9}{17}log_2\frac{9}{17})=0.998 Ent(D)=−k=1∑2pklog2pk=−(178log2178<
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。