赞
踩
先留位
文本相似度概念:
Sim(A,B)=logP(common(A,B))/logP(description(A,B))
其中, common(A,B)是A和B的共性信息, description(A,B)是描述A和B的全部信息, 公式表达出相似度与文本共性成正相关。
文本相似度计算方法分类如下:
该方法从字符串匹配度出发, 以字符串共现和重复程度为相似度的衡量标准。根据计算粒度不同, 可将方法分为基于字符(Character-Based)的方法和基于词语(Term-Based)的方法。一类方法单纯从字符或词语的组成考虑相似度算法, 如编辑距离、汉明距离、余弦相似度、Dice系数、欧式距离; 另一类方法还加入了字符顺序, 即字符组成和字符顺序相同是字符串相似的必要条件, 如最长公共子串(Longest Common Substring, LCS)、Jaro-Winkler; 再一类方法采用集合思想, 将字符串看作由词语构成的集合, 词语共现可用集合的交集计算, 如N-gram、Jaccard、Overlap Coefficient。表1列出了主要方法, 其中SA、SB表示字符串A、B。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。