赞
踩
所谓决策树,就是一种树形结构的分类模型(也可以用作回归),它列举了每个特征下可能的情况以及对应情况下的下一步内容。下面是一个是否打篮球的决策树的例子:
小C:今天天气怎么样?
小P:晴
小C:温度呢?
小P:适中
小C:湿度呢?
小P:偏干燥,低
小C:风速如何?
小P:弱风
小C:好,那今天是个打篮球的好日子!
将上述过程绘制成决策树如下:
决策树的过程分两步,构建和决策(上述过程展示了如何决策)。构建的时候采用训练数据,带有所有特征和分类结果。决策的时候用测试数据,带有特征但无分类结果,通过决策得到分类结果。
ID3算法是决策树算法的一种,它采用信息增益的方式选择合适的属性作为划分属性。要理解ID3算法,需要先知道几个基本概念
信息熵表示了信息的不确定度,是由信息学之父香农引入的。
什么是不确定度?其计算公式如下:
E n t r o p y ( T ) = − ∑ i = 1 n p ( i ∣ T ) l o g 2 p ( i ∣ T ) Entropy(T) = -\sum_{i=1}^n p(i|T)log_2p(i|T) Entropy(T)=−i=1∑np(i∣T)log2p(i∣T)
其中, i i i是可分类别,例如打篮球中可分类别就是是、否
两类, p ( i ∣ T ) p(i|T) p(i∣T)表示类别 T T T分为 i i i类的概率。
还是以打篮球为例。下面是根据属性特征已有分类结果的表格:
天气 | 温度 | 湿度 | 风速 | 是否打篮球 |
---|---|---|---|---|
晴 | 炎热 | 高 | 弱 | 否 |
晴 | 炎热 | 高 | 强 | 否 |
阴 | 炎热 | 高 | 弱 | 是 |
雨 | 适中 | 高 | 弱 | 是 |
雨 | 寒冷 | 中 | 弱 | 是 |
雨 | 寒冷 | 中 | 强 | 否 |
阴 | 寒冷 | 中 | 强 | 是 |
晴 | 适中 | 高 | 弱 | 否 |
晴 | 寒冷 | 中 | 弱 | 是 |
雨 | 适中 | 中 | 弱 | 是 |
晴 | 适中 | 中 | 强 | 是 |
阴 | 适中 | 高 | 强 | 是 |
阴 | 炎热 | 中 | 弱 | 是 |
雨 | 适中 | 高 | 强 | 否 |
以上述表格为例(9个是,5个否),是否打篮球的信息熵就是
E n t r o p y ( T ) = − 9 14 ∗ l o g 2 9 14 − 5 14 ∗ l o g 2 5 14 = 0.940 Entropy(T) =-\frac{9}{14}*log_2\frac{9}{14} -\frac{5}{14}*log_2\frac{5}{14} = 0.940 Entropy(T)=−149∗log2149−145∗log2145=0.940
从直观的角度理解,当分类种类越多,分类的数量越均匀,信息熵越高。即纯度越低,很高的信息熵会让我们在决策的时候更加难以判断分类结果,需要借助更多的其他条件来确定。
(是、是、是、否、否、否)要比(是、是、是、是、是、否)信息熵更大,因为前者更加混乱
信息熵度量了这个类别的混乱程度,如果一个信息熵很小的类别,如(是、是、是、是、是、是),那么根本不需要决策,无论什么条件下结果都是一样
又叫条件属性信息熵,其表示在某种特征条件下,所有类别出现的不确定性之和。其实他就在信息熵的基础上添加了特征这一选项。其计算公式为
E n t r o p y ( T ∣ F ) = ∑ i = 1 n D i D ∗ E n t r o p y ( F i ) Entropy(T| F) = \sum_{i=1}^n\frac{D_i}{D}*Entropy(F_i) Entropy(T∣F)=i=1∑nDDi∗Entropy(Fi)
其中, D i D_i Di表示这种特征第i种情况的取值数,D表示这种特征所有的取值数, E n t r o p y ( F i ) Entropy(F_i) Entropy(Fi)是信息熵,不过此时计算的信息熵是限定在情况(例如晴)下的。直观的理解就是如果按照天气特征分类得到的加权不纯度(信息熵越高,样本越不纯)。
以上述表格的天气特征为例:
E n t r o p y ( T ∣ 天 气 ) = 5 14 ∗ [ − 2 5 ∗ l o g 2 2 5 − 3 5 ∗ l o g 2 3 5 ] + 4 14 ∗ [ − 4 4 ∗ l o g 2 4 4 ] + 5 14 ∗ [ − 3 5 ∗ l o g 2 3 5 − 2 5 ∗ l o g 2 2 5 ] = 0.694 Entropy(T|天气) = \frac{5}{14}*[-\frac{2}{5}*log_2\frac{2}{5} - \frac{3}{5}*log_2\frac{3}{5}] + \frac{4}{14}*[-\frac{4}{4}*log_2\frac{4}{4} ] + \frac{5}{14}*[-\frac{3}{5}*log_2\frac{3}{5} - \frac{2}{5}*log_2\frac{2}{5}] \\= 0.694 Entropy(T∣天气)=145∗[−52∗log252−53∗log253]+144∗[−44∗
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。