当前位置:   article > 正文

【计算机科学与技术】信息论笔记:合集_计算机科学与技术读书笔记

计算机科学与技术读书笔记

200804本篇是《信息论》的读书笔记,欢迎各位路过指正!今天十章全部更新完毕啦。

0.分章节目录

1. 熵、相对熵与互信息

1.1 绪论与概述

  • 香农(C.E.Shannon) 于1948年发表论文 “通信的数学理论” 奠定了信息论的基础。

  • 香农第一定理(无失真信源编码定理):给出编码极限。

  • 香农第二定理(有噪信道编码定理):传输速率小于信道容量,则误码率可以任意小。

  • 香农第三定理(保失真度准则下的有失真信源编码定理):给定失真度,只要码字足够长,就可以使编码的失真度小于给定失真度。

1.2 熵

  • 的定义:

H ( X ) = H ( p 1 , p 2 , ⋯   , p K ) = − ∑ n = 1 K p n log ⁡ p n H(X)=H\left(p_{1}, p_{2}, \cdots, p_{K}\right)=-\sum_{n=1}^{K} p_{n} \log p_{n} H(X)=H(p1,p2,,pK)=n=1Kpnlogpn

  • 一元信源模型

[ X p ( x ) ] = [ a 1 a 2 ⋯ a K p ( a 1 ) p ( a 2 ) ⋯ p ( a K ) ] \left[

Xp(x)
\right]=\left[
a1a2aKp(a1)p(a2)p(aK)
\right] [Xp(x)]=[a1p(a1)a2p(a2)aKp(aK)]

0 ≤ p n ≤ 1 0 \leq p_n \leq 1 0pn1 ∑ n = 1 K p n = 1 \sum_{n=1}^K p_n = 1 n=1Kpn=1。若 X ∼ p ( x ) X\sim p(x) Xp(x),则随机变量 g ( X ) g(X) g(X)的期望为 E [ g ( x ) ] = ∑ g ( x ) p ( x ) E[g(x)]=\sum g(x)p(x) E[g(x)]=g(x)p(x)。随机变量 X X X的熵可看为随机变量 l o g ( 1 / p ( X ) ) log(1/p(X)) log(1/p(X))的数学期望,其中 p ( x ) p(x) p(x) X X X的概率密度函数。

  • 熵函数应符合下面三条公理:(1)对称性:交换下标不影响熵值。(2)最大值:等概分布熵值最大。(3)若 p K = p 11 + . . . + p 1 i p_K = p_{11} + ... + p_{1i} pK=p11+...+p1i则两个分布有如下关系:

H ( p 1 , p 2 , ⋯   , p K − 1 , p 11 , p 12 , ⋯   , p 1 l ) = H ( p 1 , p 2 , ⋯   , p k ) + p k H ( p 11 p K , p 12 p K , ⋯   , p 1 i p K ) H\left(p_{1}, p_{2}, \cdots, p_{K-1}, p_{11}, p_{12}, \cdots, p_{1 l}\right)=H\left(p_{1}, p_{2}, \cdots, p_{k}\right)+p_{k} H\left(\frac{p_{11}}{p_{K}}, \frac{p_{12}}{p_{K}}, \cdots, \frac{p_{1 i}}{p_{K}}\right) H(p1,p2,,pK1,p11,p12,,p1l)=H(p1,p2,,pk)+pkH(pKp11,pKp12,,pKp1i)

  • 熵的含义:(1)平均意义:熵是整个集合的统计特性。(2)信息熵: H ( X ) H(X) H(X)表示每个消息提供的平均信息量。(3)随机性:信息熵 H ( X ) H(X) H(X)表征了变量X的随机性。

  • 熵的链式法则:
    H ( X 1 , X 2 , ⋯   , X n ) = ∑ i = 1 n H ( X i ∣ X i − 1 , ⋯   , X 1 ) H\left(X_{1}, X_{2}, \cdots, X_{n}\right)=\sum_{i=1}^{n} H\left(X_{i} \mid X_{i-1}, \cdots, X_{1}\right) H(X1,X2,,Xn)=i=1nH(XiXi1,,X1)

1.3 联合熵

  • 二元信源模型
    [ X Y p ( X Y ) ] = [ a 1 b 1 a 1 b 2 a 1 b 3 … a k b J p ( a 1 , b 1 ) p ( a 1 , b 2 ) p ( a 1 , b 3 ) … p ( a K , b J ) ] \left[
    XYp(XY)
    \right]=\left[
    a1b1a1b2a1b3akbJp(a1,b1)p(a1,b2)p(a1,b3)p(aK,bJ)
    \right]
    [XYp(XY)]=[a1b1p(a1,b1)a1b2p(a1,b2)a1b3p(a1,b3)akbJp(aK,bJ)]

其中 ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) = 1 \sum_{k=1}^K \sum_{j=1}^J p (a_k,b_j) = 1 k=1Kj=1Jp(ak,bj)=1

  • 联合熵的定义:
    H ( X , Y ) = − ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) log ⁡ p ( a k , b j ) = − E [ log ⁡ p ( X , Y ) ] H(X, Y)=-\sum_{k=1}^{K} \sum_{j=1}^{J} p\left(a_{k}, b_{j}\right) \log p\left(a_{k}, b_{j}\right)=-E[\log p(X,Y)] H(X,Y)=k=1Kj=1Jp(ak,bj)logp(ak,bj)=E[logp(X,Y)]

若独立,则联合熵等于单个随机变量熵之和;条件熵等于无条件熵(绝对熵)。

  • 有等式

H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(X,Y) = H(X) + H(Y | X) =H(Y) + H(X | Y) H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)

1.4 条件熵

  • 条件熵的定义:

H ( Y ∣ X ) = − ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) log ⁡ p ( b j ∣ a k ) H(Y|X) = -\sum_{k=1}^K \sum_{j=1}^J p(a_k,b_j)\log p(b_j|a_k) H(YX)=k=1Kj=1Jp(ak,bj)logp(bjak)

  • 条件熵链式法则:

H ( X , Y ∣ Z ) = H ( X ∣ Z ) + H ( Y ∣ X , Z ) H(X,Y|Z) = H(X|Z) + H(Y | X,Z) H(X,YZ)=H(XZ)+H(YX,Z)

  • 确定关系:若 X X X Y Y Y有确定的函数关系,且 X X X可以完全确定 Y Y Y(或 Y Y Y完全确定 X X X),则 H ( Y ∣ X ) = H ( X ∣ Y ) = 0 H(Y|X) = H(X|Y) = 0 H(YX)=H(XY)=0

  • 条件熵不大于绝对熵是平均意义下的结论。

1.5 相对熵

  • 相对熵(Kullback熵) :两个随机分布之间距离的度量。
    D ( p ∣ ∣ q ) = ∑ k = 1 K p ( a k ) log ⁡ p ( a k ) q ( a k ) D(p||q) = \sum_{k=1}^Kp(a_k)\log\frac{p(a_k)}{q(a_k)} D(pq)=k=1Kp(ak)logq(ak)p(ak)

  • 条件相对熵:一对随机变量的两个联合分布之间的相对熵可以展开为相对熵和条件相对熵之和。

D ( p ( y ∣ x ) ∥ q ( y ∣ x ) ) = ∑ x p ( x ) ∑ y p ( y ∣ x ) log ⁡ p ( y ∣ x ) q ( y ∣ x ) = E p ( x , y ) log ⁡ p ( Y ∣ X ) q ( Y ∣ X ) D(p(y \mid x) \| q(y \mid x))=\sum_{x} p(x) \sum_{y} p(y \mid x) \log \frac{p(y \mid x)}{q(y \mid x)}=E_{p(x, y)} \log \frac{p(Y \mid X)}{q(Y \mid X)} D(p(yx)q(yx))=xp(x)yp(yx)logq(yx)p(yx)=Ep(x,y)logq(YX)p(YX)

  • 相对熵的链式法则:
    D ( p ( x , y ) ∥ q ( x , y ) ) = D ( p ( x ) ∥ q ( x ) ) + D ( p ( y ∣ x ) ∥ q ( y ∣ x ) ) D(p(x, y) \| q(x, y))=D(p(x) \| q(x))+D(p(y \mid x) \| q(y \mid x)) D(p(x,y)q(x,y))=D(p(x)q(x))+D(p(yx)q(yx))

1.6 互信息

  • 互信息的定义:
    I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = I ( Y ; X ) I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = I(Y;X) I(X;Y)=H(X)H(XY)=H(Y)H(YX)=I(Y;X)
    也可以采用直接定义 X X X Y Y Y之间的互信息为
    I ( X ; Y ) = ∑ k = 1 K ∑ j = 1 J p ( a k , b j ) log ⁡ p ( a k , b j ) p ( a k ) p ( b j ) I(X ; Y)=\sum_{k=1}^{K} \sum_{j=1}^{J} p\left(a_{k}, b_{j}\right) \log \frac{p\left(a_{k}, b_{j}\right)}{p\left(a_{k}\right) p\left(b_{j}\right)} I(X;Y)=k=1Kj=1Jp(ak,bj)logp(ak)p(bj)p(ak,bj)

  • 熵与互信息的关系:互信息是随机变量之间相互依存度的度量信息。

  • 单个互信息物理意义: Y = b j Y=b_j Y=bj下获得的 X = a k X=a_k X=ak的信息量,互信息 I ( X ; Y ) I(X;Y) I(X;Y)为单个互信息的均值。

  • 熵可由互信息导出。自信息的数学期望就是信息熵 H ( X ) = E [ I ( a k , a k ) ] = E [ H ( a k ) ] H(X) = E[I(a_k,a_k)]=E[H(a_k)] H(X)=E[I(ak,ak)]=E[H(ak)]

  • 条件互信息:给定随机变量 Z Z Z时,由 Y Y Y的信息而获得的关于 X X X的信息
    I ( X ; Y ∣ Z ) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) = ∑ k = 1 K ∑ j = 1 J ∑ l = 1 L p ( a k , b j , c i ) log ⁡ p ( a k , b j ∣ c i ) p ( a k ∣ c i ) p ( b j ∣ c i ) I(X ; Y \mid Z)=H(X \mid Z)-H(X \mid Y, Z)=\sum_{k=1}^{K} \sum_{j=1}^{J} \sum_{l=1}^{L} p\left(a_{k}, b_{j}, c_{i}\right) \log \frac{p\left(a_{k}, b_{j} \mid c_{i}\right)}{p\left(a_{k} \mid c_{i}\right) p\left(b_{j} \mid c_{i}\right)} I(X;YZ)=H(XZ)H(XY,Z)=k=1Kj=1Jl=1Lp(ak,bj,ci)logp(akci)p(bjci)p(ak,bjci)

  • 互信息的链式法则:
    I ( X 1 , X 2 , ⋯   , X n ; Y ) = ∑ i = 1 n I ( X i ; Y ∣ X i − 1 , ⋯   , X 1 ) I\left(X_{1}, X_{2}, \cdots, X_{n} ; Y\right)=\sum_{i=1}^{n} I\left(X_{i} ; Y \mid X_{i-1}, \cdots, X_{1}\right) I(X1,X2,,Xn;Y)=i=1nI(Xi;YXi1,,X1)

1.7 Jensen不等式

  • Jensen不等式:设函数 f ( x ) f(x) f(x)是凸域 D D D上的下凸函数,则对任意 a m ∈ D a_m \in D amD 0 ≤ λ m ≤ 1 , λ 1 + . . . + λ M = 1 0\leq \lambda_m \leq 1, \lambda_1+ ... + \lambda_M = 1 0λm1,λ1+...+λM=1
    f ( ∑ m = 1 M λ m α m ) ≤ ∑ m = 1 M λ m f ( α n ) f\left(\sum_{m=1}^{M} \lambda_{m} \alpha_{m}\right) \leq \sum_{m=1}^{M} \lambda_{m} f\left(\alpha_{n}\right) f(m=1Mλmαm)m=1Mλmf(αn)

  • 信息不等式:两个概率密度函数为 p ( x ) p(x) p(x) q ( x ) q(x) q(x)之间的鉴别信息为 D ( p ∣ ∣ q ) D(p||q) D(pq),则: D ( p ∣ ∣ q ) ≥ 0 D(p||q) \geq 0 D(pq)0,当且仅当对任意的 x x x p ( x ) = q ( x ) p(x)=q(x) p(x)=q(x),等号成立。

  • 推论:
    I ( X ; Y ) ≥ 0 I ( X ; Y ∣ Z ) ≥ 0 D ( p ( y ∣ x ) ∣ ∣ q ( y ∣ x ) ) ≥ 0 I(X;Y) \geq 0\\ I(X;Y|Z) \geq 0\\ D(p(y|x)||q(y|x))\geq 0 I(X;Y)0I(X;YZ)0D(p(yx)q(yx))0
    H ( X ) ≤ l o g ∣ X ∣ H(X)\leq log|X| H(X)logX,其中 ∣ X ∣ |X| X表示 X X X的字母表 X X X中元素的个数,当且仅当 X X X服从 X X X上的均匀分布时,等号成立。

  • 意义:在平均意义下,信源的不确定性减少。
    H ( X ) ≥ H ( X ∣ Y ) H ( X ) \geq H ( X | Y ) H(X)H(XY)

  • 熵的独立界:当且仅当 X i X_i Xi相互独立,等号成立。熵函数为上凸函数。
    H ( X 1 , X 2 , ⋯   , X n ) ≤ ∑ i = 1 n H ( X i ) H\left(X_{1}, X_{2}, \cdots, X_{n}\right) \leq \sum_{i=1}^{n} H\left(X_{i}\right) H(X1,X2,,Xn)i=1nH(Xi)

  • 定理:互信息为信源概率分布的上凸函数;互信息为信道矩阵的下凸函数。

1.8 对数和不等式

  • 上面的等式中假设信源概率分布为 p : p ( a k ) p:p(a_k) p:p(ak)。互信息由概率分布和条件概率矩阵确定。记为 Q : p ( b j ∣ a k ) Q:p(b_j|a_k) Q:p(bjak) Q Q Q有时也称为信道转移概率矩阵。互信息可记为 I ( p , Q ) I ( p, Q ) I(p,Q)
  • 对数和不等式:对于非负数 a 1 , a 2 , … , a n a_1, a_2, …,a_n a1,a2,,an b 1 , b 2 , … , b n b_1, b_2, …,b_n b1,b2,,bn,当且仅当 a i b i \frac{a_i}{b_i} biai为常数时,等号成立 。
    ∑ i = 1 n a i log ⁡ a i b i ≥ ( ∑ i = 1 n a i ) log ⁡ ( ∑ i = 1 n a i / ∑ i = 1 n b i ) \sum_{i=1}^{n} a_{i} \log \frac{a_{i}}{b_{i}} \geq\left(\sum_{i=1}^{n} a_{i}\right) \log \left(\sum_{i=1}^{n} a_{i} / \sum_{i=1}^{n} b_{i}\right) i=1nailogbiai(i=1nai)log(i=1nai/i=1nbi)
  • 相对熵的下凸性 D ( p ∣ ∣ q ) D(p||q) D(pq)关于对 ( p , q ) (p,q) (p,q)是下凸的。

1.9 数据处理不等式

  • 数据处理不等式:数据处理都会损失信息。 X → Y → Z X\to Y\to Z XYZ构成Markov链,则
    I ( X ; Y ) ≥ I ( X ; Z ) I(X;Y)\geq I(X;Z) I(X;Y)I(X;Z)

  • 费诺不等式:定义误差概率为 P e = P r { X ^ ≠ X } P_e = Pr\{\hat{X} \neq X\} Pe=Pr{ X^=X}。则对任何满足 X → Y → X ^ X\to Y\to \hat{X} XYX^的估计量 X ^ \hat{X} X^,有
    H ( P e ) + P e log ⁡ ∣ X ∣ ≥ H ( X ∣ X ^ ) ≥ H ( X ∣ Y ) 1 + P e log ⁡ ∣ X ∣ ≥ H ( X ∣ Y ) H\left(P_{\mathrm{e}}\right)+P_{\mathrm{e}} \log |\boldsymbol{X}| \geq H(X \mid \hat{X}) \geq H(X \mid Y)\\ 1+P_{\mathrm{e}} \log |\boldsymbol{X}| \geq H(X \mid Y) H(Pe)+PelogXH(XX^)H(XY)1+PelogXH(XY)

  • 意义:假定没有任何关于 Y Y Y的知识,只能在毫无信息的情况下对 X X X进行推测。 X ∈ { 1 , 2 , … , K } X\in \{1,2,…,K\} X{ 1,2,,K} p 1 ≥ p 2 ≥ … ≥ p K p_1\geq p_2 \geq …\geq p_K p1p2pK则对 X X X的最佳估计是 X ^ = 1 \hat{X}=1 X^=1,而此时产生的误差概率为 P e = 1 − p 1 P_e=1-p_1 Pe=1p1

  • 误差概率与熵之间的不等式:设 X X X X ’ X’ X为两个独立同分布的随机变量,有相同的熵 H ( X ) H(X) H(X),那么 X = X ′ X=X' X=X的概率为

Pr ⁡ ( X = X ′ ) = ∑ p 2 ( x ) \operatorname{Pr}\left(X=X^{\prime}\right)=\sum p^{2}(x) Pr(X=X)=p2(x)

2. 渐进均分性

2.1 渐进均分性定理

  • 信息符号冗余度:冗余度高,符号携带的信息率低,易于压缩;

  • 信源的冗余编码:提高单个信息符号所携带的信息量。

  • 渐进等同分割性(Asymptotic Equipartition Property)结论:信源分布等概,信息熵最大。

  • 定理2.1.1(渐进均分性):设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是概率密度函数为p(x)的独立同分布(i.i.d)的随机变量,则
    − 1 n log ⁡ p ( X 1 , X 2 , ⋯   , X n ) → H ( X ) -\frac{1}{n} \log p\left(X_{1}, X_{2}, \cdots, X_{n}\right) \rightarrow H(X) n1logp(X1,X2,,Xn)H(X)

  • 直观解释:当序列足够长时,一部分序列就显现出这样的性质:**序列中各个符号的出现频数非常接近于各自的出现概率,而这些序列的概率则趋近于相等,且它们的和非常接近于1,这些序列就称为典型序列。**其余的非典型序列的出现概率之和接近于零。

香农在1948年的《通信的数学理论》中注意到它并表述为一个定理。后来麦克米伦在1953年发表的《信息论的基本定理》一文中严格地证明了这一结果。

  • 定义2.1.1(典型集):设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn 是概率密度函数为 p ( x ) p(x) p(x)的i.i.d随机序列,如果联合分布 p ( x 1 , x 2 , … , x n ) p(x_1, x_2,… ,x_n) p(x1

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/641141
推荐阅读
相关标签
  

闽ICP备14008679号