赞
踩
看论文顺便粗略学习了EM算法和PLSA主题模型,鉴于刚入门,本文不对其原理进行深入探讨,主要针对其中的公式推导详细说明一下。
Probabilitic Latent Sematic Analysic(PLSA)主题模型是一种自然语言处理相关问题中非常经典的统计模型。相较于LSA模型,PLSA是一种基于概率统计的模型,可以用来判断文本中隐藏主题。
PLSA原理图如下:
其中,d代表文档,一共N篇,z代表主题,一共K种,w代表单词,一共M个,p(z|d)表示主题z出现在文档d下的条件概率,p(w|z)表示的是单词w出现在主题z下的条件概率。主题在单词上服从多项分布,文档在主题上服从多项分布。整篇文档的生成过程如下:
其中文章d和单词w是我们可以观察到的数据,而主题z是隐含变量。
根据定义,由全概率公式很容易得到二元组(d,w)的联合概率分布:
其中,与都是未确定参数的多项分布,我们的目的就是估计这两组参数。
首先不妨利用极大似然估计(MLE),似然函数表示在当前参数条件下,观测出数据的联合概率,针对PLSA模型即为(假设数据之间相互独立):
其中,为单词wj出现在文档di中的次数。为了便于计算求导,取对数似然函数,并将前面几个公式代入,可以得到:
式中,可以视为一个常数,我们需要极大化似然函数,求解和
很显然,对这样含有对数和的函数求偏导非常困难,因此,需要利用EM算法迭代求解。
Expectation Maximization(EM)算法,顾名思义,分为两个步骤:1)求期望,2)最大化。
算法具体描述如下:
一般用Y表示观测随机变量的数据,用Z表示隐随机变量的数据。Y和Z一起成为完全数据(complete-data),Y单独称为不完全数据(incomplete-data)。
算法需要注意的几点如下:
按照EM算法的思路,首先要求出Q函数,也就是完全数据的对数似然函数关于给定数据和当前参数下,对未观测数据的条件概率分布的期望。
对于完全数据的对数似然函数,与MLE时类似可以得到:
要注意的是,这里已经和MLE时不同,为:
为什么这里不是zk的求和呢?因为此时我们针对的是完全数据,认为隐藏变量也已知,简言之就是我们已经观察到了每个单词w背后的主题z,这样计算概率的时候zk是确定的。
完全数据的似然函数求出来了,下面需要求这个似然函数针对隐藏变量Z在观测数据和当前参数条件下的期望。因此要先求出Z的后验概率,这里根据全概率公式与以上的推导可以得到:
这样,可以得到在PLSA主题模型下的Q函数表达式:
剩下的就是要对Q函数求极大化,需要用到拉格朗日乘子法,在后续文章中会介绍。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。