当前位置:   article > 正文

交叉熵损失函数_lstm 交叉熵损失

lstm 交叉熵损失

转载:交叉熵损失函数详解

信息量的大小与信息发生的概率成反比。
概率越大,信息量越小。
概率越小,信息量越大。
设某一事件发生的概率为P(x),其信息量表示为:
在这里插入图片描述
其中 I ( x )表示信息量,这里 log表示以e为底的自然对数。
信息熵
信息熵也被称为熵,用来表示所有信息量的期望。
期望是试验中每次可能结果的概率乘以其结果的总和。
所以信息量的熵可表示为:(这里的 X 是一个离散型随机变量)
在这里插入图片描述
使用明天的天气概率来计算其信息熵:
在这里插入图片描述在这里插入图片描述
相对熵(KL散度)
如果对于同一个随机变量 X 有两个单独的概率分布 P ( x )和 Q ( x ) ,则我们可以使用KL散度来衡量这两个概率分布之间的差异。
下面直接列出公式,再举例子加以说明。
在这里插入图片描述

在机器学习中,常常使用P(x)来表示样本的真实分布,Q(x)来表示模型所预测的分布,比如在一个三分类任务中(例如,猫狗马分类器), x 1 , x 2 , x 3 分别代表猫,狗,马。
例如一张猫的图片真实分布 P ( X ) = [ 1 , 0 , 0 ] , 预测分布 Q ( X ) = [ 0.7 , 0.2 , 0.1 ] ,计算KL散度:
在这里插入图片描述
KL散度越小,P(x)与Q(x)的分布更加接近,可以通过反复训练Q(x)来使 Q(x)的分布逼近 P(x)。
交叉熵
首先将KL散度公式拆开:
在这里插入图片描述
前者 H(p(x))表示信息熵,后者即为交叉熵,KL散度 = 交叉熵 - 信息熵
交叉熵公式表示为:
在这里插入图片描述
交叉熵在单分类问题中的应用
在线性回归问题中,常常使用MSE(Mean Squared Error)作为loss函数,而在分类问题中常常使用交叉熵作为loss函数。
下面通过一个例子来说明如何计算交叉熵损失值。
假设我们输入一张狗的图片,标签与预测值如下:
在这里插入图片描述
则:
在这里插入图片描述
一个batch的loss:
在这里插入图片描述
式中的m表示为样本个数。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/488320
推荐阅读
相关标签
  

闽ICP备14008679号