信息熵、互信息、KL散度_信息熵 kl散度互信息

作者：我家自动化 | 2024-03-12 07:25:35

踩

信息熵 kl散度互信息

信息熵
自信息量

设离散信源X的概率空间为：

$\begin{bmatrix} X\\ P(x) \end{bmatrix}= \begin{bmatrix} a_{1} &a_{2} &a_{3} &... &a_{q} \\ P(a_{1}) &P(a_{2}) &P(a_{3}) &... &P(a_{q}) \end{bmatrix}$ ， $\sum_{i=1}^{q}P(a_{i})=1$

称事件 $a_{i}$ 发生所含有的信息量为 $a_{i}$ 的自信息量：

$I(a_{i})=f[P(a_{i})]=log_{r}\frac{1}{P(a_{i})}=-log_{r}P(a_{i})$

信息熵

自信息的数学期望为平均自信息量 $H_{r}(X)$ ，称为信息熵：

$H_{r}(X)=E[log_{r}\frac{1}{p(a_{i})}]=-\sum_{i=1}^{q}p(a_{i})log_{r}p(a_{i})$

当r=2时： $H(X)=E[log\frac{1}{p(a_{i})}]=-\sum_{i=1}^{q}p(a_{i})logp(a_{i})$

$H_{r}(X)=\frac{H(X)}{logr}$

信息熵的单位由自信息量的单位决定，即取决于对数的底。

交叉熵

假设一个样本集中两个概率分布p,q，其中p为真实分布，q为非真实分布，如果采用错误的分布q来表示来自真实分布p的平均编码长度，则应该是 $H(p,q)=\sum_{i}^{ }p(i)log(\frac{1}{q(i)})$

互信息

互信息量 $I(x_{i};y_{j})$ ：收到消息 $y_{j}$ 后获得关于 $x_{i}$ 的信息量。

$I(x_{i};y_{j})=I(x)-I(x/y)=log\frac{1}{p(x_{i})}-log\frac{1}{p(x_{i}|y_{j})}=log\frac{p(x_{i}|y_{j})}{p(x_{i})}$

即先验的不确定性减去尚存的不确定性，这就是收信者获得的信息量。

KL散度（相对熵）

设P(x)是随机变量Q(x)上的两个概率分布，则在离散和连续随机变量的情形下，相对熵的定义分别为：

$KL(P\parallel Q)=\sum P(x)log\frac{P(x)}{Q(x)}$

$KL(P\parallel Q)=\int P(x)log\frac{P(x)}{Q(x)}dx$

非负性：相对熵恒为非负： $KL(P\parallel Q)\geqslant 0$ ，且在P=Q时取0

不对称性： $KL(P\parallel Q)\neq KL(Q\parallel P)$

应用：相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大。例如使用相对熵比较文本的相似度，先统计出词的频率，然后计算相对熵。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/222986

信息熵、互信息、KL散度_信息熵 kl散度 互信息

信息熵

互信息

KL散度（相对熵）

信息熵、互信息、KL散度_信息熵 kl散度互信息