赞
踩
熵的概念源自热物理学。熵代表了系统的混乱程度,微观状态的数量越大,混乱程度越高,熵越大。
信息理论的鼻祖之一Claude E. Shannon把信息(熵)定义为离散随机事件的出现概率
。
所谓信息熵,是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率。而信息熵和热力学熵是紧密相关的。根据Charles H. Bennett对Maxwell’s Demon的重新解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。而产生信息,则是为系统引入负(热力学)熵的过程。所以信息熵的符号与热力学熵应该是相反的。
一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。
信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高
。所以,信息熵也可以说是系统有序化程度的一个度量。
信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。
举个栗子: 假定你的朋友告诉你“你中了一千万的彩票”, 你内心的惊愕程度就由于这个信息“你中了一千万的彩票”带来的,所以这个惊愕度就是事件“你中了一千万的彩票”的信息熵。
简单来讲信息熵则是为了量化信息的不确定而设计的度量。当一个事件发生概率很小并发生了,事件的信息量大。当一个事件发生概率很大并发生了,事件的信息量小
。
信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,如外星人进攻地球了;越大概率的事情发生了产生的信息量越小,如太阳从东边升起来了(每天都在发生,几乎没有接收什么新信息)。
信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望
。即
H ( X ) = − s u m ( P ( x ) log 2 P ( x ) ) H(X) = -sum(P(x) \log_2P(x)) H(X)=−sum(P(x)log2P(x))
转换一下为
H ( X ) = − ∑ i = 1 n P ( x i ) log 2 P ( x i ) H(X) = -\sum_{i=1}^{n} P(x_i) \log_2P(x_i) H(X)=−i=1∑nP(xi)log2P(xi)
单位为比特,其中 P ( x i ) P(x_i) P(xi)代表随机事件X为 x i x_i xi的概率。
熵中如采用 l o g 2 log_2 log2 ,则对应的单位为比特(bit);如果采用 l o g 3 log_3 log3 ,则对应的单位为Tet,如果采用 l o g e log_e loge ,即采用 l n ln ln 的话,对应单位为nat;采用 l o g 10 log_{10} log10 ,对应单位为Hart。
熵是对事件结果不确定性的度量,但在知道有些条件时,不确定性会变小。例如,一个人身体出了问题去看中医,身体出了什么问题这个事件的不确定性会随着老中医不断望闻问切获取信息和知道条件而降低。
条件熵衡量的就是在某个条件 X 下,事件 Y 的不确定性,记作
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X)。其定义式为
H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i) H(Y∣X)=i=1∑npiH(Y∣X=xi)
理解为,X 事件每个可能性的结果的熵乘以发生概率的求和。
关于条件熵,再以单项选择题来举例子。在学霸圈做单项选择题有一个秘籍:三长一短选最短,三短一长选最长。姑且假设学霸的秘籍一般都是正确的。
如果在某场考试中,有10%的单项选题是三长一短,10%的选题是三短一长。计算该考试单项选题的关于长短题的条件熵:
选择类型 | 选择概率分布 | 该类型发生概率 |
---|---|---|
三长一短 | (1,0,0,0) | 0.1 |
三短一长 | (1,0,0,0) | 0.1 |
都一样长 | (0.25,0.25,0.25,0.25,) | 0.8 |
H(三长一短)=0bit
H(三短一长)=0bit
H(都一样长)=2bit
得到结果,条件熵为 0.1 ∗ 0 + 0.1 ∗ 0 + 0.8 ∗ 2 = 1.6 b i t 0.1*0+0.1*0+0.8*2=1.6bit 0.1∗0+0.1∗0+0.8∗2=1.6bit。
如果随机进行选择,熵就是 − 0.25 ∗ l o g 0.25 − 0.25 ∗ l o g 0.25 − 0.25 ∗ l o g 0.25 − 0.25 ∗ l o g 0.25 = 2 b i t -0.25*log0.25-0.25*log0.25-0.25*log0.25-0.25*log0.25=2bit −0.25∗log0.25−0.25∗log0.25−0.25∗log0.25−0.25∗log0.25=2bit。
可见,学霸的秘诀就是好用,将信息熵由2bit降为了1.6bit,降幅达到了20%。
信息增益是知道了某个条件后,事件的不确定性下降的程度。写作 g(X,Y)。它的计算方式为熵减去条件熵,如下
g ( X , Y ) = H ( Y ) − H ( Y ∣ X ) g(X,Y)=H(Y)-H(Y|X) g(X,Y)=H(Y)−H(Y∣X)
表示的是,知道了某个条件后,原来事件不确定性降低的幅度。
在上面单项选择的例子中,通过了解每个考题的长度信息,可以将信息熵由2bit降为了1.6bit。其中,信息增益就是0.4bit。
假如某个条件极其严格,比如某个同学提前知道了所有选题的答案,那么将选题的序号作为条件,不存在任何不确定性,所以可以得到最大的信息增益。但是这个条件是没有意义的,假设老师换一份考卷答案就全部作废了。
信息增益率在信息增益的基础上增加了惩罚项,惩罚项是特征的固有值,是避免上述情况而设计的。
写作 gr(X,Y)。定义为信息增益除以特征的固有值,如下
g r ( X , Y ) = g ( X , Y ) H ( Y ) g_r(X,Y)=\frac{g(X,Y)}{H(Y)} gr(X,Y)=H(Y)g(X,Y)
继续以单项选择题为例,通过分析选题的长短特征之后,信息增益g(X,Y)为2bit,惩罚项 H ( Y ) = − 0.1 ∗ l o g 0.1 − 0.1 ∗ l o g 0.1 − 0.8 ∗ l o g 0.8 = 0.92 H(Y)=-0.1*log0.1-0.1*log0.1-0.8*log0.8=0.92 H(Y)=−0.1∗log0.1−0.1∗log0.1−0.8∗log0.8=0.92
信息增益率为0.4/0.92=43%,其中,信息增益率为43%。
与熵一样,基尼系数表征的也是事件的不确定性,将熵定义式中的“-logpi”替换为 1-pi 就是基尼系数。
G
i
n
i
(
p
)
=
∑
i
=
1
n
p
i
(
1
−
p
i
)
Gini(p)=\sum_{i=1}^{n}p_i(1-p_i)
Gini(p)=i=1∑npi(1−pi)
变形得到
G
i
n
i
(
p
)
=
∑
i
=
1
n
(
p
i
−
p
i
2
)
=
1
−
∑
i
=
1
n
p
i
2
Gini(p)=\sum_{i=1}^{n}(p_i-p_i^2)=1-\sum_{i=1}^{n}p_i^2
Gini(p)=i=1∑n(pi−pi2)=1−i=1∑npi2
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。