“熵”(Entropy)是度量样本集合纯度(purity)最常用的一种指标。假定当前样本集合 D D D中第 k k k类样本所占的比例为 p k ( k = 1 , 2 , . . . . ∣ Y ∣ ) p_k(k = 1,2,....|Y|) pk(k=1,2,....∣Y∣),则样本集D的熵可以定义为: E n t r o p y ( D ) = − ∑ k = 1 ∣ Y ∣ p k l o g 2 p k Entropy(D) =- \displaystyle\sum_{k=1}^{|Y|}p_k{log_2}p_k Entropy(D)=−k=1∑∣Y∣pklog2pk; E n t r o p y ( D ) Entropy(D) Entropy(D)的值越小,表示D的纯度越高。
假定离散属性 a a a有 V V V个可能的取值 a 1 , a 2 , . . . , a V {a^1,a^2,...,a^V} a1,a2,...,