赞
踩
潜在语义分析(LSA/I)
概率潜在语义分析(PLSA)
潜在狄利克雷分布(LDA)
层次狄利克雷过程(HDP)
SVD计算非常耗时,尤其文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的;
主题个数值的选取对结果的影响非常大,很难选择合适的k值;
LSI是基于矩阵分解的,得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。
最近也是刚接触主题建模,根据在网上以及书籍和文献搜集资料,我个人作如下理解:
潜在语义分析(LSI)可以说是最经典(最老)的一种主题建模方法,他原理和步骤比较简单因此也存在比较多问题,就像上面列举的。因此,在它的基础上作了很多改进和发展。
首先,针对上述LSI第三个问题点,PLSA模型通过一个生成模型来为LSA赋予了概率意义上的解释。
而LDA又在PLSA的基础上,为主题分布和词分布分别加了两个Dirichlet先验,实际上LDA就是pLSA的贝叶斯版本,由其变种而得。但LDA不能捕获父子主题之间的关系。
但是标准LDA模型中话题的个数K需要已知,然而很多时候确定K的大小是一件困难的事情,而HDP能够根据数据自动确定K的大小,且能捕获父子主题之间的关系。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。