小蓝xlanll

这个屌丝很懒，什么也没留下！

热门标签

通用信息抽取UIE论文笔记

作者：小蓝xlanll | 2024-04-05 00:38:29

踩

uie论文

一.研究背景与动机

信息抽取

目的

信息抽取旨在从非结构化的自然语言文本中抽取出结构化的信息。

主要任务

命名实体识别
关系抽取
事件抽取
观点抽取

主要设置

全监督
低资源
少样本
零样本

作用场景

医疗
金融
法律
美业
农业
教育

信息抽取现有的问题

任务难度大，落地成本居高不下。
1）不同的信息抽取任务拥有差异较大的输出结构，难以统一化建模：

实体识别任务一般是采用span及其实体类别表示
关系抽取任务一般采用三元组（triplet）结构表示
事件抽取任务一般采用记录（record）表示
观点抽取任务一般采用三元组（triplet）结构表示

2）不同任务/设置/作用场景，需要设计大量特定模型，极其耗费资源
3）不同的任务有很多本可以共用的知识，但现有技术无法做到共享：

关系抽取需要用到命名实体识别的结果
事件抽取中的论元也是实体

4）不同信息抽取任务之间的独立，导致需要对每个任务都单独进行数据标注，极其耗费时间和人力

二.通用信息抽取UIE

1.简介

为了解决现有信息抽取技术所面临的问题，首个结构化生成式信息抽取预训练语言模型UIE被提出，一统了信息抽取四大任务。

2.结构

在这里插入图片描述

3.主要贡献

1）提出了一种统一的文本到结构（text-to-structure）的生成架构UIE

可以对不同IE任务进行通用建模
自适应地生成目标结构
并从不同的知识源协同学习通用IE能力

2）设计了一种结构化抽取语言（Structural Extraction Language，SEL）将异构的IE结构编码成统一表示，使得模型的输出结构对不同任务都是一致的

3）提出结构化模式指导器（structural schema instructor，SSI）通过prompt指导UIE模型在多任务架构中做指定的任务:

发现（spot）什么
关联（associate）什么
生成（generate）什么

4) 预训练了第一个文本到结构（text-to-structure）的预训练提取模型

由于UIE模型的输出都是符合SEL语法的结构化信息
目前常用的生成式预训练模型如T5、BART都是以生成自然语言为主，直接采用这种预训练模型会影响到UIE模型性能
专门针对text to structure的结构预训练了一个大模型

4.结构化抽取语言SEL

将信息抽取任务的目标拆解成两个原子操作Spotting和Associating，SEL可以对这两个原子操作进行表示，不同的任务只要组合不同的原子操作对应结构即可统一表示：

Spotting：指在输入的原句中找到目标信息片段，比如说实体识别中某个类型的实体，事件抽取中的触发词和论元都是原句中的片段。
Associating：指找出Spotting输出的信息片段之间的关系，比如关系抽取中两个实体之间的关系，或事件抽取中论元和触发词之间的关系。
Spot Name：指目标信息片段的类别，在实体抽取中指实体类别，在事件抽取中可以指事件类型和论元类别
Info Span：Spotting操作的输出，即原句中的目标信息片段
Asso Name：指两个信息片段之间的关系类型，也就是Associating操作的输出

5.结构化模式指导器SSI

有了SEL语法，模型统一了不同任务的输出结构。而SSI则是一种基于Schema的prompt，当输入句子时，在句子前面拼接上对应的prompt，即可让模型做对应的任务。
在这里插入图片描述

用s表示SSI，用x表示需要输入的原始句子，UIE表示由transformer的Encoder和Decoder组成的UIE模型：
在这里插入图片描述

输出y就是采用SEL语法描述的结构化数据：
在这里插入图片描述

将s和x拼接后输入至Encoder,得到每一个token的隐层表示：
在这里插入图片描述

然后使用隐层表示在Decoder端生成目标结构化信息：
在这里插入图片描述

6.预训练

1）预训练数据

主要由Wikipedia、Wikidata和ConceptNet三部分组成，作者通过这三部分数据构造了如下三种形式的预训练数据：

D-pair:(token sequence x,structured record y)，数据表示为（s,x,y）
D-record:只有基于SEL语法的结构性record，数据表示为（None，None，y)
D-text:只有无结构的原始文本数据，做masked language model tasks，数据表示为（None，x’,x"）

2）预训练任务

Text-to-Structure(D-pair):捕获基本的文本到结构的映射能力
在这里插入图片描述

Structure Generation(D-record):生成由SEL和模式定义的有效结构的能力
在这里插入图片描述

Retrofitting Semantic Representation(D-text):改造UIE的语义表示能力
在这里插入图片描述

最终将三个Loss相加作为UIE最终的Loss：
在这里插入图片描述

3）参数初始化

UIE采用的模型是T5-v1.1-base和T5-v1.1-large作为UIE-base和UIE-large，模型的参数初始化直接使用了T5-v1.1的参数，也就是说直接基于其进行了二次预训练。
在这里插入图片描述

7.实验

全监督

在这里插入图片描述

小样本

在这里插入图片描述

附录

报道：https://mp.weixin.qq.com/s/8Cr4EvN3PscThSTfCseJDQ
论文：https://arxiv.org/pdf/2203.12277.pdf
代码：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

脑图

在这里插入图片描述

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】