赞
踩
概率模型有时既含有观测变量,又含有隐变量或潜在变量。如果概率模型的变量都是观测变量,那么给定观测数据,直接根据极大似然估计求解模型参数。EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计或者极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望;M步,求极大值。EM算法用于对观测数据的极大似然估计的近似实现。
EM算法:
输入:观测变量数据Y,隐变量数据Z,联合分布P(Y,Z|θ),条件分布P(Z|Y,θ);
输出:模型参数θ
(1)选择初始参数,开始迭代
(2)E步:记为第i次迭代参数θ的估计值,在第i+1次迭代的E步,计算
(3)M步:求使Q极大化的θ,确定第i+1次迭代的参数估计值
(4)重复2和3步,直到收敛
对于一个含有隐变量的概率模型,目标是极大化观测数据Y关于参数θ的对数似然函数,即极大化
EM算法就是通过迭代逐步近似极大化L(θ)的。假设在第i次迭代后θ的估计值是θi。我们希望新估计值θ能使L(θ)增加。即L(θ)>L(θi),并逐步达到极大值。为此,考虑两者的差:
根据jensen不等式得到其下界:
令
则
即函数B是L的一个下界,
任何使得B增大的θ,也可以使L(θ)增大。为了使L(θ)有尽可能大的增长,选择θ(i+1)使B达到极大,即
注意:其实在这里同时可以证明P(Y|θi)的收敛性,因其有上界,同时
则收敛。
比较经典的图
李航老师书中三硬币模型,这里针对书中省略的推导过程做一补充。
首先我们的目标是对Q(θ,θi)找到其极大化
先找出完全数据的对数似然函数logP(Y,Z|θ)
定理1:设P(Y|θ)为观测数据的似然函数,θi为EM算法得到的参数估计序列,P(Y|θi)为对应的似然函数序列,则P(Y|θi)是单调递增的,即
在EM算法推导中提到了收敛性的证明方法,另一种证明方法参考李航老师书中所示.
EM算法收敛性其实包含两个方面,其一是P(Y|θi)的收敛,其二是θ在迭代过程中的收敛,《统计学习方法》中只是证明了前者的收敛,对于后者的收敛,我会查阅相关文献列出证明方法。
[1] 李航.《统计学习方法》
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。