其中,β(1≤i≤4)是可调节的参数,且有:β1+β2+β3+β4=1,β1≥β2≥P3≥β4。后者反映了Siml(Sl,S2)到Sim4(Sl,S2)对于总体相似度所起到的作用依次递减。由于第一独立义原描述式反映了一个概念最主要的特征,所以应该将其权值定义得比较大,一般应在0.5以上。在以上计算中,最后求加权平均时,各部分取相等的权值。这样,就把两个词语之间的相似度问题归结到了两个概念之间的相似度问题。
2.2 利用大规模的语料库进行统计
基于语料库的词语相似度研究大都采用了上下文语境的统计描述方法,即认同这样一个论断:词语的上下文可以为词语定义提供足够信息。词语向量空间模型是目前基于统计的词语相似度计算策略使用比较广泛的一种,算法复杂度也能够实现的模型。该模型事先选择一组特征词,然后计算这一组特征词与每一个词的相关性(一般用这组词在实际的大规模语料中以该词在上下文中出现的频率来度量),于是对于每一个词都可以得到一个相关性的特征词向量,然后利用这些向量之间的相似度作为这两个词的相似度。
由计算机自然语言处理专家RudiL.Cilibrasi和Paul M.B.Vitanyi[2007.12]提出的语义相似度计算方法,该方法理论基础涉及信息论、压缩原理、柯尔莫哥洛夫复杂性、语义WEB、语义学等,基本思想是把Intemet作为一个大型的语料库,以Google(对其它的搜索引擎如百度同样适用)作为搜索引擎,搜索返回的结果数作为计算的数值依据,其计算公式如下:
其中,NGD(Normalized Google Distance,介于0与1之间)表示标准谷歌距离(以此衡量语义相似性大小),f(x),f(y)分别表示含概念x,y的网页数,f(x,y)表示同时含有概念的网页数,N表示Google引用的互联网上的网页总数。
可以以一次实验来说明,假设用Google搜索词语'horse'返回46700000(记为f(x))条结果,搜索词语'rider'返回结果数为12200ooo(记为f(y)),搜索同时含'horse,rider'的网页数是2630ooo(记为f(x,y)),Google共引用的网页数是N=8058044651,代入上述公式求得:
NGD(horse,rider)≈0.443
3. 两类主要语义相似度计算方法的比较