NLP中的关系抽取方法归纳_自然语言处理关系抽取方法

作者：煮酒与君饮 | 2024-07-19 01:03:34

踩

自然语言处理关系抽取方法

文章目录

前言
命名实体识别任务
关系分类任务
联合抽取
- 共享参数的联合抽取模型
- 联合解码的联合抽取模型
总结

本文是阅读完娄杰所写 NLP中的实体关系抽取方法总结一文之后，摘录其中部分段落，结合自己对关系抽取工作的理解，记成的个人笔记。

前言

说到信息抽取，不得不提的就是实体关系抽取(Entity and Relation Extraction)，实体关系抽取是信息抽取的关键任务之一。本文也将主要围绕这个关键任务进行讨论。实体关系抽取任务是一个级联任务，分为两个子任务：命名实体识别（NER）和关系抽取（RE）。如何更好处理这种类似的级联任务是NLP的一个热点研究方向。
这里个人觉得这两个任务除了先后顺序以外，具体没有太多内在关联，识别到实体和判别实体之间的关系我认为是两种任务，两个词组存在关系，但是这两个词组不一定就是命名实体。例如my father和i之间是父子关系，但是father和i都不是命名实体。相反，两个命名实体之间也不一定存在着关系，China和Trump之间就没有任何关系，（但可以通过关系图的形式构成间接关系）。两者唯一的关联，可能就源自两者的判断依据都源自同一句话，只是任务需求的各自处理方式不同而已。

命名实体识别任务

说到命名实体识别任务，现今主流采用的几乎都是之前阅读笔记中的LSTM(BiLSTM)+CRF的网络结构。那么除此之外还有哪些decode的方式？

Softmax和CRF

Softmax本质上就是token的多分类问题，通常采用经过CNN，RNN或者BERT特征提取之后的序列然后直接对序列中的每一个token进行softmax分类。之后可能再用CRF进行标签约束。

指针网络

指针网络在命名实体中的应用其实就是寻找实体的起始和结束位置，对于可能存在多个实体span的NER，需要n个二元sigmoid分类（个人认为还可以是三元softmax分类，添加以上都不是一类即可），预测每一个词是头指针还是尾指针还是都不是。

span排列

《Span-Level Model for Relation Extraction》基于片段排列的方式，提取所有可能的片段排列，由于每一个片段都是独立的，所以可直接提取span-level的特征去解决重叠实体问题。对于含T个token的文本，理论上共有 $N=\frac{T(T+1)}{2}$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/煮酒与君饮/article/detail/848598

NLP中的关系抽取方法归纳_自然语言处理 关系抽取方法