赞
踩
什么是LDA模型?
LDA模型是一种无监督的贝叶斯模型,即不需要手工标注训练集。LDA模型也是一种典型的词袋模型,即认为一篇文章由许多个词组成,词与词之间没有先后顺序。
LDA模型的输入为:训练文本,指定主题个数K
LDA模型的输出为:每个主题Zk由哪些词组成及每个词的概率
比如:组成主题Z1的前5个词的概率:0.007*"netanyahu" + 0.007*"mod" + 0.007*"call" + 0.007*"gender" + 0.005*"sure"
LDA模型的应用为:预测一篇文档包含哪些主题及每个主题的概率
比如:对某个文档的预测结果为:[(13, 0.14081296), (15, 0.6363143), (16, 0.14560005)]
前提标准:一个词可以在多个主题下,一篇文档可以包含多个主题
引用博客:https://blog.csdn.net/v_july_v/article//details/41209515
PLSA的文档生成模型思想:
1. 假设你每写一篇文档会制作一颗K面的“文档-主题”骰子(扔此骰子能得到K个主题中的任意一个),和K个V面的“主题-词项” 骰子(每个骰子对应一个主题,K个骰子对应之前的K个主题,且骰子的每一面对应要选择的词项,V个面对应着V个可选的词)。
2. 每写一个词,先扔该“文档-主题”骰子选择主题,得到主题的结果后,使用和主题结果对应的那颗“主题-词项”骰子,扔该骰子选择要写的词。即“先以一定的概率选取主题,再以一定的概率选取词”。
比如:设3个主题的概率分布是{教育:0.5,经济:0.3,交通:0.2}。我们把各个主题z在文档d中出现的概率分布称之为主题分布,且是一个多项分布。
设3个词的概率分布是{大学:0.5,老师:0.3,课程:0.2}。我们把各个词语w在主题z下出现的概率分布称之为词分布,这个词分布也是一个多项分布。
选主题和选词都是两个随机的过程,先从主题分布{教育:0.5,经济:0.3,交通:0.2}中抽取出主题:教育,然后从该教育主题对应的词分布{大学:0.5,老师:0.3,课程:0.2}中抽取出词:大学。
注:LDA中,我们不再认为主题分布和词分布是唯一确定的,而是有很多种可能(而是随机变量)。也就相当于,在文档1中,3个主题的概率分布是{教育:0.5,经济:0.3,交通:0.2},但在文档2中,3个主题的概率分布可能是{教育:0.6,经济:0.3,交通:0.1}。
3. 最后,你不停的重复扔“文档-主题”骰子和”主题-词项“骰子,重复N次(产生N个词),完成一篇文档,重复这产生一篇文档的方法M次,则完成M篇文档。
PLSA中生成文档的整个过程便是选定文档生成主题,确定主题生成词。
一个例子的简单实验效果:https://blog.csdn.net/v_july_v/article//details/41209515
假设事先给定了这几个主题:Arts、Budgets、Children、Education,然后通过学习训练,获取每个主题Topic对应的词语。如下图所示:
然后以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某个单词,不断的重复这两步,最终生成如下图所示的一篇文章(其中不同颜色的词语分别对应上图中不同主题下的词):
下面使用两个模型对比描述LDA模型:
公式:P(w|d)=P(w|t)*P(t|d);w表示词,t表示主题,d表示文档
(1). 随机地给θd和φt赋值(对所有的d和t)。θd<pt1,...,ptk>,其中,pti表示d对应T中第i个topic的概率。φt<pw1,...,pwm>,其中,pwi表示t⽣成V中第i个单词的概率。
(2). 针对⼀个特定的⽂档ds中的第i单词wi,如果令该单词对应的topic为tj,可以把上述公式改写为:Pj(wi | ds)=P(wi | tj)*P(tj | ds)。
(3). 现在我们可以枚举T中的topic,得到所有的pj(wi | ds)。取令pj(wi | ds)最⼤的tj表示该词表示的主题。
(4). 如果ds中的第i个单词wi在这⾥选择了⼀个与原先不同的topic(也就是说,这个时候i在遍历ds中所有的单词,⽽tj理当不变),就会对θd和φt有影响了。它们的影响⼜会反过来影响对上⾯提到的p(w | d)的计算。对D中所有的d中的所有w进⾏⼀次p(w | d)的计算并重新选择topic看作⼀次迭代。这样进⾏n次循环迭代之后,就会收敛到LDA所需要的结果了。
(1) “文档-词项”的生成模型:
(2) 对于任意一篇文档,其是已知的。某个词在文档中的概率 = 出现词wj的总文档数 ÷ 词的总个数。
根据可以训练出文档-主题和主题-词项
与PLSA模型相比,就步骤1不相同。 “文档-词项”的生成模型:
个人学习笔记,还望大家多多指正!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。