赞
踩
本节及后续小节将从指数族分布 → \to → 熵、最大熵原理 → sigmoid,softmax \to \text{sigmoid,softmax} →sigmoid,softmax函数的思路进行介绍。
指数族分布(
Exponential Families of Distributions
\text{Exponential Families of Distributions}
Exponential Families of Distributions),它不是某一个分布,而是满足某种条件的分布集合。从名字可以看出,指数族分布描述的概率分布与指数相关。指数族分布的统一格式表示如下:
P
(
x
∣
η
)
=
h
(
x
)
exp
{
η
T
ϕ
(
x
)
−
A
(
η
)
}
\mathcal P(x \mid \eta) = h(x) \exp \left\{\eta^{T} \phi(x) - A(\eta) \right\}
P(x∣η)=h(x)exp{ηTϕ(x)−A(η)}
如果只看公式等号左边 → P ( x ∣ η ) \to P(x \mid \eta) →P(x∣η),在介绍极大似然估计与最大后验概率估计中介绍过,它可以表示为 基于参数向量 η \eta η,生成随机样本 x x x的概率模型。
我们称:
在后续的公式推导中进行证明。
配分函数相关:
传送门指数族分布应用广泛,如广义线性模型(
Generalized Linear Model,GLM
\text{Generalized Linear Model,GLM}
Generalized Linear Model,GLM),概率图中的无向图模型如受限玻尔兹曼机(
Restricted Boltzmann Machine,RBM
\text{Restricted Boltzmann Machine,RBM}
Restricted Boltzmann Machine,RBM)均存在指数族分布的理论支撑;
甚至在深度强化学习中,使用策略梯度方法求解强化学习任务时,需要使用
Softmax
\text{Softmax}
Softmax函数将离散型的动作映射成具有连续性质的指数族分布。
我们在概率论与数理统计中学习到的大部分分布都是指数族分布,下面列举一些常见分布:
下面对伯努利分布、高斯分布、二项分布进行推导,观察经过变化后的分布和指数族分布统一格式之间的关联关系。
伯努利分布:
P
(
x
)
=
p
x
⋅
(
1
−
p
)
1
−
x
=
{
p
if
x
=
1
q
if
x
=
0
\mathcal P(x) = p^x \cdot (1 - p)^{1-x} = {pifx=1qifx=0
将上述公式进行变化:
观察变化后的公式,对照指数族分布的定义式,可以发现:
伯努利分布完全可以写成指数族分布的形式。
二项分布:
二项分布可以看成
n
n
n次独立重复的伯努利实验。它的概率分布表示如下:
P
(
x
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
\mathcal P(x = k) = \mathcal C_{n}^{k}p^k(1-p)^{n-k}
P(x=k)=Cnkpk(1−p)n−k
其中,
C
n
k
\mathcal C_{n}^{k}
Cnk表示二项式系数:
C
n
k
=
n
!
k
!
(
n
−
k
)
!
C_{n}^{k} = \frac{n!}{k!(n-k)!}
Cnk=k!(n−k)!n!
它的指数族分布表示和伯努利分布非常相似:
对照指数族分布定义式,获取参数如下:
一维高斯分布:
P
(
x
∣
θ
)
=
1
σ
2
π
⋅
exp
{
−
(
x
−
μ
)
2
2
σ
2
}
\mathcal P(x \mid \theta) = \frac{1}{\sigma\sqrt{2\pi}} \cdot \exp \left\{-\frac{(x - \mu)^2}{2\sigma^2}\right\}
P(x∣θ)=σ2π
1⋅exp{−2σ2(x−μ)2}
同理,将上述公式完全展开,系数部分插入
exp
\exp
exp:
I
=
exp
{
log
(
2
π
σ
2
)
−
1
2
}
⋅
exp
{
−
1
2
σ
2
(
x
2
−
2
μ
x
+
μ
2
)
}
=
exp
{
−
1
2
log
(
2
π
σ
2
)
}
⋅
exp
{
−
1
2
σ
2
(
x
2
−
2
μ
x
)
−
μ
2
2
σ
2
}
I=exp{log(2πσ2)−12}⋅exp{−12σ2(x2−2μx+μ2)}=exp{−12log(2πσ2)}⋅exp{−12σ2(x2−2μx)−μ22σ2}
此时,两项都有相同的底
exp
\exp
exp,将两项合并;技巧操作:将
x
2
−
2
μ
x
x^2 - 2\mu x
x2−2μx视为两向量的乘法操作。即:
x
2
−
2
μ
x
=
(
−
2
μ
,
1
)
(
x
x
2
)
x^2 - 2\mu x = (−2μ,1)
化简得到如下结果:
将
−
1
2
σ
2
−12σ2作为系数带到矩阵中:
−
1
2
σ
2
(
−
2
μ
,
1
)
=
(
μ
σ
2
,
−
1
2
σ
2
)
-\frac{1}{2\sigma^2} (−2μ,1)
最终化简结果为:
exp
{
(
μ
σ
2
,
−
1
2
σ
2
)
(
x
x
2
)
−
[
μ
2
2
σ
2
+
1
2
log
(
2
π
σ
2
)
]
}
\exp \left\{ \left(\frac{\mu}{\sigma^2},-\frac{1}{2\sigma^2} \right) (xx2)
对照指数族分布定义式:
实际上,我们可以对 η \eta η继续化简:
回头观察充分统计量:
ϕ
=
(
x
x
2
)
\phi = (xx2)
如果某组数据
X
=
{
x
(
1
)
,
x
(
2
)
,
⋯
,
x
(
N
)
}
\mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\}
X={x(1),x(2),⋯,x(N)}服从高斯分布,并且知晓该数据的两种信息:
(
∑
i
=
1
N
x
(
i
)
∑
i
=
1
N
[
x
(
i
)
]
2
)
(N∑i=1x(i)N∑i=1[x(i)]2)
那么该信息就可以构建一个完整的高斯分布模型
P
(
x
∣
η
)
P(x \mid \eta)
P(x∣η), 并可以从该模型中源源不断地生成和
X
\mathcal X
X相同分布的样本:
{
μ
=
1
N
∑
i
=
1
N
x
i
σ
2
=
∑
i
=
1
N
x
i
2
−
μ
2
{μ=1NN∑i=1xiσ2=N∑i=1x2i−μ2
有了均值
μ
\mu
μ,方差
σ
\sigma
σ,自然可以求解高斯分布:
P
(
x
∣
θ
)
=
1
2
π
σ
exp
{
−
(
x
−
μ
)
2
2
σ
2
}
\mathcal P(x \mid \theta) = \frac{1}{\sqrt{2\pi}\sigma} \exp \left\{-\frac{(x - \mu)^2}{2\sigma^2} \right\}
P(x∣θ)=2π
σ1exp{−2σ2(x−μ)2}
因此,指数族分布概率模型中的所有信息都存储在充分统计量中。换句话说,如果某一概率模型是指数族分布,那么该模型的统计量本身就是充分统计量。
在极大似然估计与最大后验概率估计介绍了贝叶斯估计及其弊端:
P
(
θ
∣
x
)
=
P
(
x
∣
θ
)
⋅
P
(
θ
)
∫
θ
P
(
x
∣
θ
)
⋅
P
(
θ
)
d
θ
\mathcal P(\theta \mid x) = \frac{\mathcal P(x \mid \theta) \cdot \mathcal P(\theta)}{\int_{\theta} \mathcal P(x \mid \theta) \cdot \mathcal P(\theta)d\theta}
P(θ∣x)=∫θP(x∣θ)⋅P(θ)dθP(x∣θ)⋅P(θ)
其本质是积分难问题,如果 θ \theta θ是多维向量,每一维度都要计算积分,是相当耗费计算资源的事情。
共轭本身意思是指:给定特殊的似然
P
(
x
∣
θ
)
\mathcal P(x \mid \theta)
P(x∣θ)条件下,后验分布
P
(
θ
∣
x
)
\mathcal P(\theta \mid x)
P(θ∣x)与先验分布
P
(
θ
)
\mathcal P(\theta)
P(θ)会形成相同分布形式。
如果概率模型
P
(
x
∣
θ
)
\mathcal P(x \mid \theta)
P(x∣θ)是指数族分布,就可以满足共轭条件,在使用贝叶斯估计求解问题时,可以直接跳过求解分母积分的过程,这种性质为推断、模型选择提供很大便利。
具体表述逻辑如下:
注意:先验分布和后验分布的分布形式相同,但并不是相等。
下一节将介绍指数族分布与最大熵的关系。
相关参考:
二项分布
指数族分布
机器学习-白板推导系列(八)-指数族分布(Exponential Family Distribution)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。