当前位置:   article > 正文

自然语言处理基础之信息熵,联合熵,条件熵,交叉熵,相对熵_信息熵 联合熵

信息熵 联合熵

本文主要介绍信息论基本相关知识,这些知识在机器学习中的相关算法的基础,是学习机器学习及深度学习的基础知识。本文具体介绍信息熵、交叉熵及相对熵,需要深入了解信息论知识,请参考《信息论基础》。

1)信息熵(Information Entropy)

       信息熵来源于克劳德·爱尔伍德·香农的信息论,在介绍信息熵之前,我们先来了解信息量的概念。
       人类交流可以理解信息的交流。你接收的任何一条信息,都包含一定的信息量,只是每条信息对应的信息量可能会有不同。比如国兵取得奥运会金牌,国足取得世界杯总冠军等都包含一些信息量,但它们包含的信息量不同。由于国足取得世界杯总冠军这个事件的概率很小,需要确认这个事件,你需要了解很多的信息,所以国足包含的信息量更大。因此,信息量是用来确定一件事情所需要的信息量的大小,某事件发生的概率小,则该事件的信息量大,信息量与事件发生的概率成反比(1)
       如果我们有两个不相关的事件 x 和 y,那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和。
                                           I ( x , y ) = I ( x ) + I ( y ) I(x,y) = I(x) + I(y) I(x,y)=I(x)+I(y)(2)
       因为两个事件是独立不相关的,因此必须满足 p ( x , y ) = p ( x ) p ( y ) p(x,y)=p(x)p(y) p(x,y)=p(x)p(y) (3)
       根据以上三个要求,香农构造自信息函数 I ( X ) I(X) I(X)为:
                                           I ( x ) = l o g ( 1 p ( x ) ) = − l o g p ( x ) I(x) = log(\frac{1}{p(x)}) =-logp(x) I(x)=log(p(x)1)=logp(x)
        I ( x ) I(x) I(x) 自信息 (self-information)函数图像如下:
自信息函数图像
       对随机变量的信息量求期望即为信息熵(Information Entropy),它是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。
                      H ( x ) = − ∑ x p ( x ) l o g ( p ( x ) ) = − ∑ i = 1 n p ( x i ) l o g p ( x i ) H(x) = -\sum_{x}p(x)log(p(x))=-\sum_{i=1}^{n}p(x_i)logp(x_i) H(x)=xp(x)log(p(x))<

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/366208
推荐阅读
相关标签
  

闽ICP备14008679号