赞
踩
通过六元组来定义:
M=N,E,D,O,K,&
N是待消歧的实体名集合,如李娜,迈克尔乔丹等
E是待消歧实体名的目标列表,包括了可能指向的实体,如李娜(跳水运动员)
D是一个包含了待消歧实体名的文档集,如包含迈克尔的网页集合
O=是D中的实体指称项集合。一个实体的指称项是在具体上下文中出现的待消歧实体名。
K是命名实体消歧任务所使用的背景知识。关于目标实体的描述。
&:OxK->E
目标列表是否给定,分为基于聚类的消歧系统和基于实体链接的消歧系统
步骤:
bag of words的延伸,计算termxiangl ,每个权重采用经典的tf-idf来表示。没有考虑到上下文的内在关联。
扩展特征,上下文信息,类别信息,一般网页的实体名等
层次化分类体系
结构化关联语义
通过传递性发现隐藏的关系,缺点在于只用了上下文的实体信息,没有用到实体指称项的其他上下文信息。
一个命名实体的文本指称项链接到知识库中相应实体的过程。
输入有两部分:
基于实体指称项词典,获取它所指向的候选实体
模糊匹配的方法
通过打分的方法对指称项最高的实体作为目标实体
向量空间模型
基于实体指称项上下文与目标实体上下文中特征的共现信息来确定。
向量表示
抽取有效的特征表示
有效地计算向量之间的相似度
主题一致性模型
实体指称项的候选实体概念与指称项上下文中的其他实体概念的一致性程度
协同实体链接
上面只处理单个实体指称项的链接问题,忽略了单篇文档内所有实体指称项的目标实体之间的关系。对文档内所有实体指称项进行协同链接有助于提升实体链接的性能。
基于神经网络的实体消歧方法
利用实体的类别信息,实体的流行度和列表中的其他信息进行消歧。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。