赞
踩
两条规则(Case Study)
➢ TopN规则(回标后选取实体1与实体2最近的N个句子)
• Top1 vs. Top5
➢ 最近邻规则(当一个句子中出现多个实体1与多个实体2,则取最近邻的实体1和实体2)
存在问题
实体消歧
不同来源的实体可能名称不一样,无法直接对应;
例如:如百度百科中具有以“李娜”作为条目名称的实体有多个,它们分别表示着网球运动员李娜、女演员李娜、教授李娜等等。
解决方法:网络百科中,每个实体由条目名称(标题)、标签、属性三部分组成。
对于名称相同的条目,通过计算两个实体在标签和属性两个方面的相似度来计算两个实体间的相似度。
具体方法:
• 标签计算:将百度百科实体标签集合中的每个元素到候选互动百科实体的标签集合中,寻找最相似的对应标签,并记录相似度。这里的相似度计算采用编辑距离计算方法。
• 属性名计算:先进行属性名的匹配,映射到相同属性名下的属性,算作属性名匹配,并进一步进行属性值的匹配,利用编辑距离计算匹配好的属性名下属性值间的相似度,记录相似度值。
• 综合计算: 将标签计算中得到的相似度与属性计算中得到的相似度线性加权,结果作为两个实体匹配的相似度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。