赞
踩
设离散信源X的概率空间为:
,
称事件发生所含有的信息量为
的自信息量:
自信息的数学期望为平均自信息量,称为信息熵:
当r=2时:
信息熵的单位由自信息量的单位决定,即取决于对数的底。
假设一个样本集中两个概率分布p,q,其中p为真实分布,q为非真实分布,如果采用错误的分布q来表示来自真实分布p的平均编码长度,则应该是
互信息量:收到消息
后获得关于
的信息量。
即先验的不确定性减去尚存的不确定性,这就是收信者获得的信息量。
设P(x)是随机变量Q(x)上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为:
非负性:相对熵恒为非负:,且在P=Q时取0
不对称性:
应用:相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。例如使用相对熵比较文本的相似度,先统计出词的频率,然后计算相对熵。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。