赞
踩
1.在实际概率问题中,若只有观测变量,那么只需要给定参数变量,应用极大似然估计法 就可以得到要估计的参数
2.当模型中含有隐变量的时候,即概率模型参数中有可观测变量和隐藏变量的时候,需要用到EM算法(EM算法是专门处理含有隐变量的概率模型参数的极大似然估计)
1.若模型参数 Θ 已知,则可以根据训练数据推断出最优隐变量 Z 的值(E步 即:期望);反之若 Z 的值已知,则可以极大似然估计得到参数 Θ 。
事件已经发生意味着存在即合理,找到使得事件联合概率分布值最大的参数(事件的发生等价于时间联合概率,最大化联合概率分布)
1.假设我们需要调查我们学校的男生身高的分布情况,通过抽样得到的100个男生的身高。假设他们的身高是服从高斯分布的。但是这个分布的均值u和方差∂2我们不知道,这两个参数就是我们要估计的。记作 θ = [ u , ∂ 2 ] θ=[u, ∂2] θ=[u,∂2]
1.若模型参数 Θ 已知,则可以根据训练数据推断出最优隐变量 Z 的值(E步 即:期望);反之若 Z 的值已知,则可以极大似然估计得到参数 Θ 。
解析:可以看到Q函数中也提到了
P
(
Z
∣
Y
,
Θ
)
P(Z | Y , Θ)
P(Z∣Y,Θ)是给定观测数据 Y 和当前参数 Θ 下隐变量数据 Z 的条件概率分布,但是只是对 单样本计算,理解较为困难,E步感觉没有做什么事情
实例 一、三硬币模型
假设有3枚硬币,分别记作A、 B、 C,且这些硬币正面出现讹夺概率分别是 π 、 p 、 q π 、p、q π、p、q 进行如下抛硬币实验,先抛硬币A , 根据抛的结果先出硬币 B和 C 如,果A 为正面选B,如果A为反面选硬币C 。然后抛选中的硬币,出现正面记 1 ,反面记作 0.实验重复n(n = 10)次,其结果为{1, 1, 1, 1, 1, 0, 0, 0, 0, 0 },试估计3硬币模型的参数{} π 、 p 、 q π 、p、q π、p、q}
设X= {x1 , x2, …xm}是包含m个独立样本的的样本集,且 X 是服从参数 Θx 的概率分布
P
(
X
;
Θ
x
)
P(X ; Θx)
P(X;Θx),在样本集X 中的每一个样本xi 都对应着一个隐含样本 Zj ,有Z = {z1 ,z2 , z3, …zn },且Z 是服从参数为 Θz 的概率分布
P
(
Z
;
Θ
z
)
P(Z;Θz )
P(Z;Θz)
要找到一组参数Θ ,使得观察到的样本集 X 出现的概率最大,即
讲因变量显示出来为:(其中对 j 的累加是对隐变量求和得到关于X 的边缘概率)
样本集出现的最大似然:
同样显示出隐变量:
此时的似然函数:
由于隐变量的存在我们不能直接采用极大似然估计求解(继续往下)
变换似然函数:
不能直接导数等于 0 ,我们求其近似解(通过寻找似然函数
L
(
Θ
)
L(Θ)
L(Θ)的下界,求下界的极大值来逼近
L
(
Θ
)
L(Θ)
L(Θ)的极大值):
可以看到
是
的期望
根据琴森不等式有:
当让L(Θ)与下界相等时,任何使下界增大的Θ也可以使似然函数增大,琴森不等式中等号成立的条件是随机变量都相等即随机变量变为“常量”,下界函数的关键步骤是求
Q
(
Z
;
θ
z
)
Q(Z;θz)
Q(Z;θz),根据等号成立的条件
Q
(
Z
;
θ
z
)
Q(Z;θz)
Q(Z;θz)为在参数 θ 下,给定 X 后,Z的后验分布。
因此:E步 就是后验概率
Q
(
Z
;
θ
z
)
Q(Z;θz)
Q(Z;θz)
M步:就是已知后验分布
Q
(
Z
;
θ
z
)
Q(Z;θz)
Q(Z;θz)的
L
(
θ
)
L(θ)
L(θ)的极大似然
算法中给定初始参数 θ ,循环E步 和 M 步 直到收敛
算法的整体效果:通过优化对数似然当前的下界,来达到优化原函数的目的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。