赞
踩
共指消解(coreference resolution)技术同NER、RE。作为自然语言历届基础技术被广泛的应用于:文本摘要、机器翻译、自动问答和知识图谱等领域。
共指消解的提出是为了识别一段文本中指向同一实体的不同表述。
在自然文本中,经常出现同一个实体的不同表述.例如,“【陈奕迅】,英文名【Eason Chan】, 1974年7月出生于香港.【他】是当今华语乐坛的当红歌手.”这句+话中,【陈奕迅】、【E嬲on Ch锄】、【他】这3个表述都指向现实生活中“香港歌手陈奕迅”这一实体.共指消解正是为识别 一段文本中指向同一个实体(Entity)的不同表述(Mention)而提出的一项技术【41.这里提到 的实体是一个比较抽象的概念,在广义上讲,它对应着一个现实世界中的本体(Ontolo盱),在 狭义上讲,它等同于知识库中的一个概念节点(Concept N0de).而表述是指文本中指代某 个实体的词或短语,如名称、代词、缩写等.
整个共指消解的过程可以理解为——判断一个表述是否指向另一个表述的过程。
简化的判断可如下:照应语指向先行语
根据照应语和先行语的位置不同可分为四种情况:
指代是一种常见的语言现象,广泛存在于自然语言的各种表达中。一般情况下,指代分为 2 种:
指代识别阶段尽量保召回率,保留所有找到的可能是指代的词,都参与后期的指代消解。如果一个指代没有找到它的共同指代(coreference),则说明这个指代是孤立的(singleton mention),有可能是指代识别阶段找到的不是指代的词,直接舍弃。
指代消解发展至今,经历了四种不同的方法,分别是:
1976年,Hobbs提出了基于规则的朴素算法,被后人称为Hobbs算法。该方法有9个步骤,包含了很多规则,非常繁琐。Hobbs算法虽然是基于规则的,但在当时取得了不错的效果,现在也常常作为该领域的baseline模型。但是因为该方法是基于规则的,有很多指代消解没法解决。
Mention pair方法把指代消解问题转化为一个二分类问题。从左到右遍历句子,每找到一个指代,就把它和前面找到的每个指代作为一个pair,问分类器这个pair是否指代同一个实体,如果是的话,就把它们连起来。二分类的损失就是交叉熵。很简单的一个模型。
每个指代同时和前面所有指代打分,用softmax归一化,找出概率最大的先行词,添加一条连边。注意需要添加一个NA节点,因为有的指代可能第一次出现,前面没有先行词,或者这个指代根本就不是一个真正的指代。
前面的内容都是假设我们计算好了任意两个指代是coreference的概率,那么,如何来计算这个概率呢?主要有三种方法,分别是Non-neural statistical classifier、Simple neural network和More advanced model using LSTMs, attention。
A. Non-neural statistical classifier。统计机器学习方法,抽取每个指代的各种特征,然后用机器学习分类器来计算两个指代是coreference的概率。这里面的特征包括人称、性别一致性,语义相容性等等。
B. Neural Coref Model。输入是候选先行词和当前指代词的词向量,还需要加入一些额外的特征(Additional Feature),也就是上面统计机器学习方法里用到的一些特征。中间是FFNN,即全连接网络,最后输出两个指代是coreference的概率。
C. End-to-end Model。end2end模型是目前指代消解的SOTA模型,它把指代识别和指代消解两个任务融合到一起,用一个模型来解决。
参考资料:
共指消解(一)
NLP之共指消解总结
BERT for Coreference Resolution: Baselines and Analysis
NLP之共指消解总结
共指消解/指代消解/Coreference Resolution中概念/术语的总结
知识图谱—实体对齐
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。