赞
踩
关于熵,又称为自信息,描述描述一个随机变量的不确定性的数量。随机变量的熵越大,不确定性越大,所表示含有的信息量也就越大,正确估值的可能性就越小。
对于离散型随机变量X,其概率分布满足p(x) = P(X=x),x属于X,则X的熵H(X)为:
H
(
X
)
=
−
∑
x
∈
X
p
(
x
)
l
o
g
2
p
(
x
)
H(X) = - \sum _{x\in X}{p(x)log_2 p(x)}
H(X)=−x∈X∑p(x)log2p(x)
熵的单位为二进制位比特(bit),我们约定0log0 = 0。
如果X,Y是一对离散型的随机变量,X,Y~p(x,y),X,Y的联合熵H(X,Y)为:
H
(
X
,
Y
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
2
p
(
x
,
y
)
H(X,Y) = -\sum _{x \in X} \sum _{y \in Y} p(x,y)log_2 p(x,y)
H(X,Y)=−x∈X∑y∈Y∑p(x,y)log2p(x,y)
关于联合熵,可以理解为描述一对随机变量平均所需要的的信息量。
在给定随机变量X的情况下,随机变量Y的条件熵定义为:
H
(
Y
∣
X
)
=
∑
x
∈
X
p
(
x
)
H
(
Y
∣
X
=
x
)
=
∑
x
∈
X
p
(
x
)
[
−
∑
y
∈
Y
p
(
y
∣
x
)
l
o
g
2
p
(
y
∣
x
)
]
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
l
o
g
2
p
(
y
∣
x
)
H(Y|X) = \sum _{x \in X} p(x) H(Y|X=x)\\ \qquad \qquad \quad \ \ =\sum _{x \in X} {p(x)[-\sum _{y \in Y}{p(y|x)log_2p(y|x)}]}\\ \qquad \qquad \quad \ \ =-\sum _{x \in X}\sum _{y \in Y}p(x,y)log_2p(y|x)
H(Y∣X)=x∈X∑p(x)H(Y∣X=x) =x∈X∑p(x)[−y∈Y∑p(y∣x)log2p(y∣x)] =−x∈X∑y∈Y∑p(x,y)log2p(y∣x)
关于熵,联合熵,条件熵三者之间的关系,有连锁规则:
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
∣
X
)
=
H
(
Y
)
+
H
(
X
∣
Y
)
H(X,Y) = H(X) + H(Y|X)\\ \qquad \ \ \ \ \ \ \ =H(Y) + H(X|Y)
H(X,Y)=H(X)+H(Y∣X) =H(Y)+H(X∣Y)
值得一提的是,H(X|Y) 并不等于 H(Y|X),因为在给定X(Y)的情况下,描述Y(X)所需要的信息量并不相等
对于一条长度为n的信息,每一个字符or字的熵描述为熵率:
H
r
a
t
e
=
1
n
H
(
X
1
n
)
=
−
1
n
∑
x
1
n
p
(
x
1
n
)
l
o
g
2
p
(
x
1
n
)
H_{rate} =\frac 1 n H(X_{1n}) \\ \ \qquad \qquad\qquad\ \ \ \ \ = -\frac 1 n \sum _{x_{1n} }p(x_{1n})log_2 p(x_{1n})
Hrate=n1H(X1n) =−n1x1n∑p(x1n)log2p(x1n)
其中X1n表示随机变量序列(X1, … Xn)
举例如下:
relative entropy ,或Kullback - Leibler divergence,即KL距离
相对熵用于衡量两个随机分布的差距。当随机分布相同时,其相对熵为0;当两个随机分布的差别增加时,相对熵也随之增加。
如下图所示:
cross entropy
如果随机变量X~p(x),q(x)用于近似p(x)的概率分布,则随机变量X和模型q之间的交叉熵定义为:
交叉熵用于衡量估计模型与真实概率分布之间的差异。
在设计模型q时,我们的目的是使得交叉熵最小,从而使得模型最接近真实概率分布p(x)。
在设计语言模型时,我们使用困惑度来代替交叉熵来衡量该语言模型的好坏,给定语言样本l1n = l1…ln, L的困惑度PPq定义为:
由此,语言模型的任务转换为寻找困惑度最小的模型。
互信息I(X ; Y)是在知道了Y的值以后X的不确定性的减少量,即Y的值透露了多少关于X的信息量。
关于互信息I(X ; Y),条件熵H(Y|X),H(X|Y)与联合熵H(X,Y)的关系:
互信息的值越大,则表示两个事件之间的结合越紧密,越可能具有相关性,反之则断开的可能性更大。
一个例子:
每个词在表达不同的含义时其上下文往往不同,即不同的词义对应不同的上下文,我们如果将多义词的上下文进行区分,则词义应该也就能够区分了。
感谢大连理工大学杨亮老师,该文内容图片部分均取自授课PPT
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。