赞
踩
LDA(Latent Dirichlet Allocation) 在主题模型中占有非常重要的地位,常用来文本分类。
用来推测文档的主题分布。可将文档集中每篇文档的主题以概率分布的形式给出,
通过分析一些文档抽取出的主题分布,根据主题分布进行主题聚类或文本分类。
LDA 采用词袋模型,
Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。
很多时候很难精确求出精确的概率分布,常常采用近似推断方法。近似推断方法大致可分为两大类:
第一类是采样(Sampling), 通过使用随机化方法完成近似;
第二类是使用确定性近似完成近似推断,典型代表为变分推断(variational inference).。
在很多任务中并非对这些概率分布本身感兴趣,而是要基于这些分布计算期望,并且还可能进一步基于这些期望做出决策。采样法正式基于这个思路。
概率图模型中最常用的采样技术是马尔可夫链脸蒙特卡罗(Markov chain Monte Carlo, MCMC).。
MCMC方法先设法构造一条马尔科夫链,使其收敛至平稳分布恰为待估计参数的后验分布,
然后通过这条马尔科夫链来产生符合后验分布的样本,并基于这些样本来进行估计。
这里马尔科夫链转移概率的构造至关重要,不同的构造方法将产生不同的MCMC算法。
PLSA模型:采用词袋模型,文档和文档之间是独立可交换的,同一个文档内的词也是独立可交换的。
由于文档之间相互独立,很容易写出整个语料的生成概率。求解PLSA 可以使用 EM 算法进行求得局部最优解。
LDA:采用词袋模型,M篇文档会对应M个独立Dirichlet-Multinomial共轭结构;
K个topic会对应K个独立的Dirichlet-Multinomial共轭结构。
LDA 在 PLSA 的基础上,为主题分布和词分布分别加了两个 Dirichlet 先验。
在PLSA中以固定的概率来抽取一个主题词,比如0.5的概率抽取教育这个主题词,
然后根据抽取出来的主题词,找其对应的词分布,再根据词分布,抽取一个词汇。
由此PLSA中,主题分布和词分布都是唯一确定的。
但是在LDA中,主题分布和词分布是不确定的,LDA采用贝叶斯派思想,认为它们应该服从一个分布,
主题分布和词分布都是多项式分布,因为多项式分布和狄利克雷分布是共轭结构,
在LDA中主题分布和词分布使用了Dirichlet分布作为它们的共轭先验分布。所以有了一句广为流传的话 -- LDA 就是 PLSA 的贝叶斯化版本。
在 LDA 中主题的数目没有一个固定的最优解。
模型训练时,需要事先设置主题数,训练人员需要根据训练出来的结果手动调参,
优化主题数目进而优化文本分类结果。LDA 有非常广泛的应用,深层次的懂 LDA 对模型的调优,乃至提出新的模型 以及AI技能的进阶有巨大帮助。
百度开源了的 LDA 模型:https://link.csdn.net/?target=https%3A%2F%2Fgithub.com%2Fbaidu%2FFamilia%2Fwiki
参考:https://blog.csdn.net/weixin_34370347/article/details/88927646
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。