当前位置:   article > 正文

【文本相似度计算】总结篇_文本相似度怎么算

文本相似度怎么算

先留位

 

文本相似度概念:

Sim(A,B)=logP(common(A,B))/logP(description(A,B)) 

其中, common(A,B)是A和B的共性信息, description(A,B)是描述A和B的全部信息, 公式表达出相似度与文本共性成正相关。

文本相似度计算方法分类如下:

基于字符串的计算方法:

该方法从字符串匹配度出发, 以字符串共现和重复程度为相似度的衡量标准。根据计算粒度不同, 可将方法分为基于字符(Character-Based)的方法和基于词语(Term-Based)的方法。一类方法单纯从字符或词语的组成考虑相似度算法, 如编辑距离、汉明距离、余弦相似度、Dice系数、欧式距离; 另一类方法还加入了字符顺序, 即字符组成和字符顺序相同是字符串相似的必要条件, 如最长公共子串(Longest Common Substring, LCS)、Jaro-Winkler; 再一类方法采用集合思想, 将字符串看作由词语构成的集合, 词语共现可用集合的交集计算, 如N-gram、Jaccard、Overlap Coefficient。表1列出了主要方法, 其中SA、SB表示字符串A、B。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/860885
推荐阅读
相关标签
  

闽ICP备14008679号