赞
踩
共指消解(coreference resolution)技术同NER、RE。作为自然语言历届基础技术被广泛的应用于:文本摘要、机器翻译、自动问答和知识图谱等领域。
共指消解的提出是为了识别一段文本中指向同一实体的不同表述。
整个共指消解的过程可以理解为——判断一个表述是否指向另一个表述的过程。
照应语(Anaphor):指出的表述。
先行语(Antecedent):指入的表述。
简化的判断可如下:
照应语指向先行语
根据照应语和先行语的位置不同可分为四种情况:
共指消解的难点在于:
共指消解中的共指关系是一种等价关系。有如下性质:
实体解析(Entity Resolution)与共指消解的定义基本相同,实体匹配(Entity Matching)和实体对齐(Entity Alignment)主要侧重于不同的数据源之间是否指向同一实体。
共指消解可以作为实体链接的一部分:
step1:命名实体识别
step2:共指消解
step3:实体消歧
回指消解:考虑同一篇章红的照应语与上文中的先行语之间的语义关联性,不一定是等价关系。
Hobbs算法是在1978年提出的最早的共指消解算法之一。
Hobbs有两个不同的版本:
Converse首次将Hobbs算法运用在中文共指消解中,并语句语法加入了额外的约束信息。
中心理论的大致思路是跟踪文本中实体的焦点变化。
中心理论作为一种理论模型,实例化后的算法也是基于规则的,所以其缺乏泛化能力。此外其职能判断两个相邻表述是否共指,所以预测能力也较差。
相比于海量的无标注文本,由于人工成本的昂贵,所以标注数据往往规模较少。
所以有的学者利用无监督学习进行共指消解,比如聚类,EM算法,LDA算法。
介于监督学习和无监督学习之间的方法,既能利用带标注数据保证模型的精度,又可以通过无标注数据提升模型的泛化能力。
基于机器学习的方法还有如下不足:
为了缓解这个问题,全局最优化方法被提出。
人类的先验知识有利于共指消解的任务,而先验知识的获取较为困难,所以出现了利用知识库中的知识,提取额外的特征发现表述之间的隐含关系,从而提高模型的性能。
深度学习利用了word embedding、LSTM和Attention等方面的内容。进一步实现了end to end的模型,并且提升了整体的性能和泛化能力。
总结:
展望:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。