当前位置:   article > 正文

信息熵、互信息、KL散度_信息熵 kl散度 互信息

信息熵 kl散度 互信息

设离散信源X的概率空间为:

\begin{bmatrix} X\\ P(x) \end{bmatrix}= \begin{bmatrix} a_{1} &a_{2} &a_{3} &... &a_{q} \\ P(a_{1}) &P(a_{2}) &P(a_{3}) &... &P(a_{q}) \end{bmatrix}\sum_{i=1}^{q}P(a_{i})=1

称事件a_{i}发生所含有的信息量为a_{i}的自信息量:

I(a_{i})=f[P(a_{i})]=log_{r}\frac{1}{P(a_{i})}=-log_{r}P(a_{i})

  • 信息熵

自信息的数学期望为平均自信息量H_{r}(X),称为信息熵:

H_{r}(X)=E[log_{r}\frac{1}{p(a_{i})}]=-\sum_{i=1}^{q}p(a_{i})log_{r}p(a_{i})

当r=2时:H(X)=E[log\frac{1}{p(a_{i})}]=-\sum_{i=1}^{q}p(a_{i})logp(a_{i})

H_{r}(X)=\frac{H(X)}{logr}

信息熵的单位由自信息量的单位决定,即取决于对数的底。

  • 交叉熵

假设一个样本集中两个概率分布p,q,其中p为真实分布,q为非真实分布,如果采用错误的分布q来表示来自真实分布p的平均编码长度,则应该是H(p,q)=\sum_{i}^{ }p(i)log(\frac{1}{q(i)})

 

  • 互信息

互信息量I(x_{i};y_{j}):收到消息y_{j}后获得关于x_{i}的信息量。

I(x_{i};y_{j})=I(x)-I(x/y)=log\frac{1}{p(x_{i})}-log\frac{1}{p(x_{i}|y_{j})}=log\frac{p(x_{i}|y_{j})}{p(x_{i})}

即先验的不确定性减去尚存的不确定性,这就是收信者获得的信息量。

 

  • KL散度(相对熵)

设P(x)是随机变量Q(x)上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为:

KL(P\parallel Q)=\sum P(x)log\frac{P(x)}{Q(x)}

KL(P\parallel Q)=\int P(x)log\frac{P(x)}{Q(x)}dx

非负性:相对熵恒为非负:KL(P\parallel Q)\geqslant 0,且在P=Q时取0

不对称性KL(P\parallel Q)\neq KL(Q\parallel P)

应用:相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。例如使用相对熵比较文本的相似度,先统计出词的频率,然后计算相对熵。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/222986
推荐阅读
相关标签
  

闽ICP备14008679号