当前位置:   article > 正文

自然语言处理——信息论基础_信息论对于自然语言处理的影响

信息论对于自然语言处理的影响

1. 熵的定义

关于熵,又称为自信息,描述描述一个随机变量的不确定性的数量。随机变量的熵越大,不确定性越大,所表示含有的信息量也就越大,正确估值的可能性就越小。


1.1 熵

对于离散型随机变量X,其概率分布满足p(x) = P(X=x),x属于X,则X的熵H(X)为:
H ( X ) = − ∑ x ∈ X p ( x ) l o g 2 p ( x ) H(X) = - \sum _{x\in X}{p(x)log_2 p(x)} H(X)=xXp(x)log2p(x)
熵的单位为二进制位比特(bit),我们约定0log0 = 0。


1.2 联合熵

如果X,Y是一对离散型的随机变量,X,Y~p(x,y),X,Y的联合熵H(X,Y)为:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 p ( x , y ) H(X,Y) = -\sum _{x \in X} \sum _{y \in Y} p(x,y)log_2 p(x,y) H(X,Y)=xXyYp(x,y)log2p(x,y)
关于联合熵,可以理解为描述一对随机变量平均所需要的的信息量。


1.3 条件熵

在给定随机变量X的情况下,随机变量Y的条件熵定义为:
H ( Y ∣ X ) = ∑ x ∈ X p ( x ) H ( Y ∣ X = x )    = ∑ x ∈ X p ( x ) [ − ∑ y ∈ Y p ( y ∣ x ) l o g 2 p ( y ∣ x ) ]    = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 p ( y ∣ x ) H(Y|X) = \sum _{x \in X} p(x) H(Y|X=x)\\ \qquad \qquad \quad \ \ =\sum _{x \in X} {p(x)[-\sum _{y \in Y}{p(y|x)log_2p(y|x)}]}\\ \qquad \qquad \quad \ \ =-\sum _{x \in X}\sum _{y \in Y}p(x,y)log_2p(y|x) H(YX)=xXp(x)H(YX=x)  =xXp(x)[yYp(yx)log2p(yx)]  =xXyYp(x,y)log2p(yx)


关于熵,联合熵,条件熵三者之间的关系,有连锁规则
H ( X , Y ) = H ( X ) + H ( Y ∣ X )         = H ( Y ) + H ( X ∣ Y ) H(X,Y) = H(X) + H(Y|X)\\ \qquad \ \ \ \ \ \ \ =H(Y) + H(X|Y) H(X,Y)=H(X)+H(YX)       =H(Y)+H(XY)

值得一提的是,H(X|Y) 并不等于 H(Y|X),因为在给定X(Y)的情况下,描述Y(X)所需要的信息量并不相等


2. 信息论基础

2.1 熵率

对于一条长度为n的信息,每一个字符or字的熵描述为熵率
H r a t e = 1 n H ( X 1 n )         = − 1 n ∑ x 1 n p ( x 1 n ) l o g 2 p ( x 1 n ) H_{rate} =\frac 1 n H(X_{1n}) \\ \ \qquad \qquad\qquad\ \ \ \ \ = -\frac 1 n \sum _{x_{1n} }p(x_{1n})log_2 p(x_{1n}) Hrate=n1H(X1n)      =n1x1np(x1n)log2p(x1n)
其中X1n表示随机变量序列(X1, … Xn)
举例如下:
在这里插入图片描述


2.2 相对熵

relative entropy ,或Kullback - Leibler divergence,即KL距离
在这里插入图片描述
相对熵用于衡量两个随机分布的差距。当随机分布相同时,其相对熵为0;当两个随机分布的差别增加时,相对熵也随之增加。
如下图所示:
在这里插入图片描述


2.3 交叉熵

cross entropy
如果随机变量X~p(x),q(x)用于近似p(x)的概率分布,则随机变量X和模型q之间的交叉熵定义为:
在这里插入图片描述
交叉熵用于衡量估计模型与真实概率分布之间的差异。
在这里插入图片描述
在这里插入图片描述
在设计模型q时,我们的目的是使得交叉熵最小,从而使得模型最接近真实概率分布p(x)。


2.4 困惑度

在设计语言模型时,我们使用困惑度来代替交叉熵来衡量该语言模型的好坏,给定语言样本l1n = l1…ln, L的困惑度PPq定义为:
在这里插入图片描述
由此,语言模型的任务转换为寻找困惑度最小的模型。


2.5 互信息

在这里插入图片描述
在这里插入图片描述
互信息I(X ; Y)是在知道了Y的值以后X的不确定性的减少量,即Y的值透露了多少关于X的信息量。

关于互信息I(X ; Y),条件熵H(Y|X),H(X|Y)与联合熵H(X,Y)的关系:
在这里插入图片描述
在这里插入图片描述
互信息的值越大,则表示两个事件之间的结合越紧密,越可能具有相关性,反之则断开的可能性更大。

一个例子:
在这里插入图片描述

2.6 双字耦合度

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.7 噪声信道模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 应用实例——词汇歧义消解

在这里插入图片描述
每个词在表达不同的含义时其上下文往往不同,即不同的词义对应不同的上下文,我们如果将多义词的上下文进行区分,则词义应该也就能够区分了。
在这里插入图片描述

基于上下文分类的消歧方法

(1)基于贝叶斯分类器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(2)基于最大熵的消歧方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


感谢大连理工大学杨亮老师,该文内容图片部分均取自授课PPT

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/366209
推荐阅读
相关标签
  

闽ICP备14008679号