【信息论】熵、交叉熵、互信息、KL散度（相对熵）_kl分歧

作者：AllinToyou | 2024-03-08 20:28:32

踩

kl分歧

也称为信息熵或香农熵。

对于离散随机变量X，可能的结果（状态）x_1，...，x_n，以比特为单位的熵定义为：

其中p（x_i）是X的第i个结果的概率。

交叉熵用于比较两个概率分布。它告诉我们两个分布是如何相似的。

在相同的结果集上定义的两个概率分布p和q之间的交叉熵由下式给出：

基于卷积神经网络的分类器通常使用softmax层作为使用交叉熵损失函数训练的最终层。

相互信息是两种概率分布或随机变量之间相互依赖性的度量。它告诉我们有关一个变量的信息是由另一个变量承载的。

相互信息捕获随机变量之间的依赖性，并且比香草相关系数更普遍，后者仅捕获线性关系。

两个离散随机变量X和Y的相互信息定义为：

其中p（x，y）是X和Y的联合概率分布，p（x）和p（y）分别是X和Y的边际概率分布。

在贝叶斯网络中，可以使用互信息确定变量之间的关系结构。

也称为相对熵。

KL分歧是发现两个概率分布之间相似性的另一种方法。它衡量一个分布与另一个分布的差异。

假设，我们有一些数据和真正的分布，它是'P'。但我们不知道这个'P'，所以我们选择一个新的分布'Q'来估算这些数据。由于“Q”只是一个近似值，因此无法将数据逼近“P”，并且会发生一些信息丢失。这种信息丢失由KL分歧给出。

'P'和'Q'之间的KL差异告诉我们当我们尝试用'Q'逼近'P'给出的数据时，我们失去了多少信息。

来自另一概率分布P的概率分布Q的 KL偏差定义为：

KL散度通常用于无监督机器学习技术变分自动编码器。

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/211979