当前位置:   article > 正文

学习交叉熵_第三章1. 自举2例,设定它们的样本数量,所属类别和分类概率分布,计算其交叉熵

第三章1. 自举2例,设定它们的样本数量,所属类别和分类概率分布,计算其交叉熵


前言

交叉熵的含义以及公式的推导
学习内容来源于:B站UP主:王木头学科学


损失函数

梯度下降是训练神经网络的基本方法,求解的梯度就是损失函数的梯度。
理解的损失函数是:神经网络中判断的标准和现实世界中判断标准相差多少的定量表达式(两个概率统计模型)

1.最小二乘法

在这里插入图片描述
想要比较两个概率统计模型最直接的方法就是比较xi和yi两个值的差距大小
m i n ∑ i = 1 n ∣ x i − y i ∣ , min\sum_{i = 1}^{n}\left|xi-yi\right|, mini=1nxiyi,
但因为绝对值在定义域上不是全程可导的,转换成平方的形式,虽然值会有所不同但是不会影响两者之间的关系
m i n ∑ i = 1 n ( x i − y i ) 2 , min\sum_{i = 1}^{n}(xi-yi)^{2}, mini=1n(xiyi)2,

2.极大似然估计

理念世界指导现实世界,现实世界反推理想世界
在这里插入图片描述假设概率模型是

0.10.9

在这个概率模型下发生出现7个正3个反的概率为
P ( C 1 , C 2 , C 3 , . . . . . . , C 10 ∣ θ ) = ∏ i = 1 10 P ( C i ∣ θ ) = 0. 1 7 ∗ 0. 9 3 , P(C1,C2,C3,......,C10|\theta)=\prod \limits_{i=1}^{10}P(Ci|\theta)=0.1^{7}*0.9^{3}, P(C1,C2,C3,......,C10θ)=i=110P(Ciθ)=0.170.93,在这里插入图片描述
似然值:真实的情况已经发生,假设有很多种模型,在某种模型下,出某种情况的可能性
最大似然值:出现的最大的概率值,那可能性也是最高的,此时两个概率模型也是最接近的,但我们无法下定论两者是等价的
神经网络可以任意的逼近一种概率模型
在这里插入图片描述
请添加图片描述

3.交叉熵

f ( x ) = 信 息 量 , f(x) = 信息量, f(x)=,
熵越大 代表整个系统的不确定性越高 混乱程度越大
关于视频中讲解的自洽的含义没有理解透彻,直接给出信息量的公式
在这里插入图片描述在这里插入图片描述
使用的底数不一定非得是2 底数的数值不会影响到这个公式
举例:在这里插入图片描述
根据上面这个对系统贡献量的分析,发现等价于对这个系统求解期望
在这里插入图片描述
一个系统的信息熵就是把里面所有可能发生的事件的信息量求解出来然后与这个事件发生的概率相乘,最后把所有事件进行加和
KL散度
在这里插入图片描述
请添加图片描述
虽然两者公式的形式相同,但是具体的含义完全不同。
交叉熵就是用来计算与现实世界最接近的概率模型

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/649364
推荐阅读
相关标签
  

闽ICP备14008679号