赞
踩
好文章的搬运工:https://www.cnblogs.com/pinard/p/6805861.html
先对矩阵做SVD分解,然后利用V矩阵,计算LSI,LSI得到的文本主题矩阵可以用于文本相似度计算。而计算方法一般是通过余弦相似度。需要选取主题的k值。
LSI是最早出现的主题模型了,它的算法原理很简单,一次奇异值分解就可以得到主题模型,同时解决词义的问题,非常漂亮。但是LSI有很多不足,导致它在当前实际的主题模型中已基本不再使用。
主要的问题有:
1) SVD计算非常的耗时,尤其是我们的文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的。
2) 主题值的选取对结果的影响非常大,很难选择合适的k值。
3) LSI得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。
回到LSI本身,对于一些规模较小的问题,如果想快速粗粒度的找出一些主题分布的关系,则LSI是比较好的一个选择,其他时候,如果你需要使用主题模型,推荐使用LDA和HDP。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。