当前位置:   article > 正文

NLP中的关系抽取方法归纳_自然语言处理 关系抽取方法

自然语言处理 关系抽取方法


本文是阅读完娄杰所写 NLP中的实体关系抽取方法总结一文之后,摘录其中部分段落,结合自己对关系抽取工作的理解,记成的个人笔记。

前言

说到信息抽取,不得不提的就是实体关系抽取(Entity and Relation Extraction),实体关系抽取是信息抽取的关键任务之一。本文也将主要围绕这个关键任务进行讨论。实体关系抽取任务是一个级联任务,分为两个子任务:命名实体识别(NER)关系抽取(RE)。如何更好处理这种类似的级联任务是NLP的一个热点研究方向。
这里个人觉得这两个任务除了先后顺序以外,具体没有太多内在关联,识别到实体和判别实体之间的关系我认为是两种任务,两个词组存在关系,但是这两个词组不一定就是命名实体。例如my father和i之间是父子关系,但是father和i都不是命名实体。相反,两个命名实体之间也不一定存在着关系,China和Trump之间就没有任何关系,(但可以通过关系图的形式构成间接关系)。两者唯一的关联,可能就源自两者的判断依据都源自同一句话,只是任务需求的各自处理方式不同而已。

命名实体识别任务

说到命名实体识别任务,现今主流采用的几乎都是之前阅读笔记中的LSTM(BiLSTM)+CRF的网络结构。那么除此之外还有哪些decode的方式?

Softmax和CRF

Softmax本质上就是token的多分类问题,通常采用经过CNN,RNN或者BERT特征提取之后的序列然后直接对序列中的每一个token进行softmax分类。之后可能再用CRF进行标签约束。

指针网络

指针网络在命名实体中的应用其实就是寻找实体的起始和结束位置,对于可能存在多个实体span的NER,需要n个二元sigmoid分类(个人认为还可以是三元softmax分类,添加以上都不是一类即可),预测每一个词是头指针还是尾指针还是都不是。

span排列

《Span-Level Model for Relation Extraction》基于片段排列的方式,提取所有可能的片段排列,由于每一个片段都是独立的,所以可直接提取span-level的特征去解决重叠实体问题。对于含T个token的文本,理论上共有 N = T ( T + 1 ) 2 N=\frac{T(T+1)}{2} N=

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/848598
推荐阅读
相关标签
  

闽ICP备14008679号