赞
踩
相似度度量:计算个体间相似程度
TF-IDF
算法来进行文本相似度计算。处理思路: jieba
进行分词,整理为指定格式,利用 gensim
库将要对比的文档通过 doc2bow
转换成稀疏向量,再通过 models
中的 TF-IDF
将语料库进行处理,特征值和稀疏矩阵相似度建立索引,来得到最后的相似结果。
两个句子的相似度计算
处理文本相似度流程是
TF——词频:一个词在文章问出现的次数
在词频的基础上,赋予每个词的权重,体现改词的重要性。
将 TF
和 IDF
相乘,就得到一个词的 TF-IDF
值,某个词对文章的重要性越高,该值就越大,排在前面的词语,就是这篇文章的关键词。
**注意:**实际中,还要考虑词的词性,动词、名次、形容词的刻画能力也是有差别的。
TF=(某词在文章出现总次数/文章的总词数)
得出词汇较小,不便于分析。TF=(某词在文章中出现的次数/文中出现次数最多的词的次数)
标准更适用,因为能够使词频的值相对大点,便于分析。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。