当前位置:   article > 正文

【NLP】中文平均信息熵

中文平均信息熵

自然语言处理之中文平均信息熵

课程大作业 欢迎交流

信息熵

1.信息熵定义

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mpqE0SXy-1621346255418)(自然语言处理之中文平均信息熵.assets/shannon.png)]

1948年,香农提出了信息熵的概念,解决了对信息的量化度量问题。如今熵 (Entropy)信息熵,已经是机器学习中绕不开的一个概念。信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。

信息熵的公式:
H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) H\left( X \right) = - \sum\limits_{x \in X } {p\left( x \right)\log p\left( x \right)} H(X)=xXp(x)logp(x)
且规定:
0 log ⁡ ( 0 ) = 0 0\log \left( 0 \right) = 0 0log(0)=0
信息论之父克劳德·香农给出了信息熵的三个性质:

  1. 单调性,发生概率越高的事件,其携带的信息量越低;
  2. 非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;
  3. 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。

2.多随机变量系统中的信息熵

再自然语言处理中,文本的信息熵会涉及到多随机变量的情况,存在互信息联合熵条件熵等概念,以两随机变量系统为例,条件熵可以表示为:
H ( Y ∣ X ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) log ⁡ p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) p ( x )

H(Y|X)=xXp(x)yYp(y|x)logp(y|x)=xXyYp(x,y)logp(x,y)p(x)
H(YX)=

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/366224
推荐阅读
相关标签
  

闽ICP备14008679号