当前位置:   article > 正文

文本主题模型之潜在语义索引(LSI)

文本主题模型之潜在语义索引(lsi)

好文章的搬运工:https://www.cnblogs.com/pinard/p/6805861.html

先对矩阵做SVD分解,然后利用V矩阵,计算LSI,LSI得到的文本主题矩阵可以用于文本相似度计算。而计算方法一般是通过余弦相似度。需要选取主题的k值。

 

LSI是最早出现的主题模型了,它的算法原理很简单,一次奇异值分解就可以得到主题模型,同时解决词义的问题,非常漂亮。但是LSI有很多不足,导致它在当前实际的主题模型中已基本不再使用。

    主要的问题有:

    1) SVD计算非常的耗时,尤其是我们的文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的。

    2) 主题值的选取对结果的影响非常大,很难选择合适的k值。

    3) LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。

 

回到LSI本身,对于一些规模较小的问题,如果想快速粗粒度的找出一些主题分布的关系,则LSI是比较好的一个选择,其他时候,如果你需要使用主题模型,推荐使用LDA和HDP。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/140785
推荐阅读
相关标签
  

闽ICP备14008679号