赞
踩
交叉熵的含义以及公式的推导
学习内容来源于:B站UP主:王木头学科学
梯度下降是训练神经网络的基本方法,求解的梯度就是损失函数的梯度。
理解的损失函数是:神经网络中判断的标准和现实世界中判断标准相差多少的定量表达式(两个概率统计模型)
想要比较两个概率统计模型最直接的方法就是比较xi和yi两个值的差距大小
m
i
n
∑
i
=
1
n
∣
x
i
−
y
i
∣
,
min\sum_{i = 1}^{n}\left|xi-yi\right|,
mini=1∑n∣xi−yi∣,
但因为绝对值在定义域上不是全程可导的,转换成平方的形式,虽然值会有所不同但是不会影响两者之间的关系
m
i
n
∑
i
=
1
n
(
x
i
−
y
i
)
2
,
min\sum_{i = 1}^{n}(xi-yi)^{2},
mini=1∑n(xi−yi)2,
理念世界指导现实世界,现实世界反推理想世界
假设概率模型是
正 | 反 |
---|---|
0.1 | 0.9 |
在这个概率模型下发生出现7个正3个反的概率为
P
(
C
1
,
C
2
,
C
3
,
.
.
.
.
.
.
,
C
10
∣
θ
)
=
∏
i
=
1
10
P
(
C
i
∣
θ
)
=
0.
1
7
∗
0.
9
3
,
P(C1,C2,C3,......,C10|\theta)=\prod \limits_{i=1}^{10}P(Ci|\theta)=0.1^{7}*0.9^{3},
P(C1,C2,C3,......,C10∣θ)=i=1∏10P(Ci∣θ)=0.17∗0.93,
似然值:真实的情况已经发生,假设有很多种模型,在某种模型下,出某种情况的可能性
最大似然值:出现的最大的概率值,那可能性也是最高的,此时两个概率模型也是最接近的,但我们无法下定论两者是等价的
神经网络可以任意的逼近一种概率模型
f
(
x
)
=
信
息
量
,
f(x) = 信息量,
f(x)=信息量,
熵越大 代表整个系统的不确定性越高 混乱程度越大
关于视频中讲解的自洽的含义没有理解透彻,直接给出信息量的公式
使用的底数不一定非得是2 底数的数值不会影响到这个公式
举例:
根据上面这个对系统贡献量的分析,发现等价于对这个系统求解期望
一个系统的信息熵就是把里面所有可能发生的事件的信息量求解出来然后与这个事件发生的概率相乘,最后把所有事件进行加和
KL散度
虽然两者公式的形式相同,但是具体的含义完全不同。
交叉熵就是用来计算与现实世界最接近的概率模型
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。