赞
踩
说到信息抽取,不得不提的就是实体关系抽取(Entity and Relation Extraction),实体关系抽取是信息抽取的关键任务之一。本文也将主要围绕这个关键任务进行讨论。实体关系抽取任务是一个级联任务,分为两个子任务:命名实体识别(NER)和关系抽取(RE)。如何更好处理这种类似的级联任务是NLP的一个热点研究方向。
这里个人觉得这两个任务除了先后顺序以外,具体没有太多内在关联,识别到实体和判别实体之间的关系我认为是两种任务,两个词组存在关系,但是这两个词组不一定就是命名实体。例如my father和i之间是父子关系,但是father和i都不是命名实体。相反,两个命名实体之间也不一定存在着关系,China和Trump之间就没有任何关系,(但可以通过关系图的形式构成间接关系)。两者唯一的关联,可能就源自两者的判断依据都源自同一句话,只是任务需求的各自处理方式不同而已。
说到命名实体识别任务,现今主流采用的几乎都是之前阅读笔记中的LSTM(BiLSTM)+CRF的网络结构。那么除此之外还有哪些decode的方式?
Softmax本质上就是token的多分类问题,通常采用经过CNN,RNN或者BERT特征提取之后的序列然后直接对序列中的每一个token进行softmax分类。之后可能再用CRF进行标签约束。
指针网络在命名实体中的应用其实就是寻找实体的起始和结束位置,对于可能存在多个实体span的NER,需要n个二元sigmoid分类(个人认为还可以是三元softmax分类,添加以上都不是一类即可),预测每一个词是头指针还是尾指针还是都不是。
《Span-Level Model for Relation Extraction》基于片段排列的方式,提取所有可能的片段排列,由于每一个片段都是独立的,所以可直接提取span-level的特征去解决重叠实体问题。对于含T个token的文本,理论上共有 N = T ( T + 1 ) 2 N=\frac{T(T+1)}{2} N=
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。