当前位置:   article > 正文

LDA主题模型记录_lda话题模型分类

lda话题模型分类

LDA(Latent Dirichlet Allocation) 在主题模型中占有非常重要的地位,常用来文本分类。

用来推测文档的主题分布。可将文档集中每篇文档的主题以概率分布的形式给出,

通过分析一些文档抽取出的主题分布,根据主题分布进行主题聚类或文本分类。

 

LDA 采用词袋模型,

Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。

很多时候很难精确求出精确的概率分布,常常采用近似推断方法。近似推断方法大致可分为两大类:

第一类是采样(Sampling), 通过使用随机化方法完成近似;

第二类是使用确定性近似完成近似推断,典型代表为变分推断(variational inference).。

在很多任务中并非对这些概率分布本身感兴趣,而是要基于这些分布计算期望,并且还可能进一步基于这些期望做出决策。采样法正式基于这个思路。

概率图模型中最常用的采样技术是马尔可夫链脸蒙特卡罗(Markov chain Monte Carlo, MCMC).。

MCMC方法先设法构造一条马尔科夫链,使其收敛至平稳分布恰为待估计参数的后验分布,

然后通过这条马尔科夫链来产生符合后验分布的样本,并基于这些样本来进行估计。

这里马尔科夫链转移概率的构造至关重要,不同的构造方法将产生不同的MCMC算法。

PLSA模型:采用词袋模型,文档和文档之间是独立可交换的,同一个文档内的词也是独立可交换的。

由于文档之间相互独立,很容易写出整个语料的生成概率。求解PLSA 可以使用 EM 算法进行求得局部最优解。

LDA:采用词袋模型,M篇文档会对应M个独立Dirichlet-Multinomial共轭结构;

           K个topic会对应K个独立的Dirichlet-Multinomial共轭结构。

LDA 在 PLSA 的基础上,为主题分布和词分布分别加了两个 Dirichlet 先验。

在PLSA中以固定的概率来抽取一个主题词,比如0.5的概率抽取教育这个主题词,

然后根据抽取出来的主题词,找其对应的词分布,再根据词分布,抽取一个词汇。

由此PLSA中,主题分布和词分布都是唯一确定的。

但是在LDA中,主题分布和词分布是不确定的,LDA采用贝叶斯派思想,认为它们应该服从一个分布,

主题分布和词分布都是多项式分布,因为多项式分布和狄利克雷分布是共轭结构,

在LDA中主题分布和词分布使用了Dirichlet分布作为它们的共轭先验分布。所以有了一句广为流传的话 -- LDA 就是 PLSA 的贝叶斯化版本。

在 LDA 中主题的数目没有一个固定的最优解。

模型训练时,需要事先设置主题数,训练人员需要根据训练出来的结果手动调参,

优化主题数目进而优化文本分类结果。LDA 有非常广泛的应用,深层次的懂 LDA 对模型的调优,乃至提出新的模型 以及AI技能的进阶有巨大帮助。

百度开源了的 LDA 模型:https://link.csdn.net/?target=https%3A%2F%2Fgithub.com%2Fbaidu%2FFamilia%2Fwiki

 

参考:https://blog.csdn.net/weixin_34370347/article/details/88927646

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/195612
推荐阅读
相关标签
  

闽ICP备14008679号