基于gensim模块的中文句子相似度计算工具_gensim 中文文本相似的

作者：我家小花儿 | 2024-07-02 02:21:07

踩

gensim 中文文本相似的

概述

中文句子相似度的计算有很多模型，我们使用 TFIDF , LSI 与 LDA 模型

这3中模型更加适用于文章相似度的计算

对于句子来说，长度太短，正确率相对不高

具体这几种模型的原理介绍可以参考别人的博客

gensim包提供了这几个模型，因此我们直接拿来用就好

我将这个模型进行了简单的封装，包括增加了中文分词分句，并提供清晰简洁的API

从《枪炮、病菌与钢铁》一书中选出了10组，每组25个句子，共250个句子

先将这些句子用有道翻译翻译成英文，再分别用百度翻译与谷歌翻译再翻译成中文

其中将谷歌翻译版本作为训练集，原文与百度翻译版做测试集，分别对三种模型进行测试

分别从正确组数、正确率（其实两者一样，求别吐槽！！）、正确组平均得分、正确组最低得分

错误组数、错误率、错误组平均得分、错误组最高得分几个方面来衡量

实验结果

可以看到LSI模型最好，LDA模型效果最差，分析原因可能是LDA模型原本就是分析文章的，对于句子级别的数据太小，所以效果不好

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/778319