赞
踩
关系抽取任务是为了预测文本中两个实体中的语义关系,是 NLP 中的重要任务。基于图的模型由于其在关系推理中的有效性和强度而被广泛采用,许多研究依赖于外部解析器将文本序列转换为依赖树来初始化图,但是,解析器产生的错误会传播到图中。本文主要介绍如何直接从文本中构建图来避免上述问题,将通过三篇顶会文献综述基于对话文本的关系抽取最新进展。
GDPNet
论文标题:
GDPNet: Refining Latent Multi-View Graph for Relation Extraction
收录会议:
AAAI 2021
论文链接:
https://www.aaai.org/AAAI21Papers/AAAI-3290.XueF.pdf
代码链接:
https://github.com/XueFuzhao/GDPNet
1.1 论文工作
由于基于 BERT 等序列模型与基于图模型算法是关系抽取任务的研究前沿,这篇文献构造了利用潜在的多视图来捕获 token 之间各种可能的关系,随之对这个图进行精炼以选择重要的词进行关系预测,最后将改进的图表示和基于 BERT 模型的表示连接起来进行关系抽取。
论文的重要创新点在于提出了 GDPNet (Gaussian Dynamic Time Warping Pooling Net),利用高斯图生成器 (Gaussian Graph Generator, GGG)来产生多视图的边,这个图通过 Dynamic Time Warping Pooling (DTWPool)来精炼。
1.2 论文方法
GDPNet 的总体架构如图 1 的左侧所示。其中有三个关键组件:BERT 模块、图模块和 SoftMax 分类器。BERT 模块将 token 编码为相应的特性表示形式。如图 1 的右侧所示,图模块从 BERT 中获取 token 表示,并使用高斯图生成器构造一个多视图。然后通过图卷积和 DTWPool 的多次交互来细化图。最后,将改进后的潜在图输入 SoftMax 分类器预测关系类型。
1.2.1 BERT Module
论文使用 BERT 作为特征编码器来提取 token 表示,将序列 映射为 BERT 的输入序列,,对应的 BERT 产生的 token 表示为 ,在 GDPNet 中,通过图模块充分利用了整个 token 表示。
1.2.2 Graph Module
图模块由高斯图生成器 (GGG)、多层图卷积和 DTWPool 组成。GGG 用于生成潜在的多视图,而图卷积和 DTWPool 层用于图的精炼。
1.2.2.1 Gaussian Graph Generator
BERT 模块中的 部分用来生成多视图用以建模 token 之间的关系。论文使用潜在图的初始节点表示 ,其中每个节点表示对应于 token 表示,接着,基于 利用 GGG 初始化多视图的边。具体来说,首先将每个节点 编码为多个高斯分布如下:
与 表示两个可训练的神经网络, 表示非线性激活函数, 表示多视图中的视图数量。对于多视图的第 个试图会得到一些高斯分布 ,每个高斯分布会对应于节点表示 。论文使用高斯分布之间 KL 散度来建模边的关系:
在计算每个视图节点边的关系之后,会得到多个邻接矩阵 ,因此多视图可以表示为 。
1.2.2.2 Multi-view Graph Convolution
多视图卷积记为:
是初始节点表示和子层生成的节点表示的串联特征。
1.2.2.3 Dynamic Time Warping Pooling
在图卷积通过消息传播更新节点表示后,引入 Dynamic TimeWarping Pooling (DTWPool)来精炼潜在多视图。首先利用 SAGPool 来计算每个视图的注意力系数:
对于潜在多视图中的第 n 个视角,会得到分数集 ,论文保留了 SAGPool 的节点选择方法,即使在图的大小和结构发生变化时,也保留了输入图中的一部分节点。在节点选择之后,第 个视角保留的节点是 的子集,因为潜在图通常有多个视角,所以会发现多个 不同的子集。
由于多视图的特性,DTWPool 通过从不同视图获取节点的联合集,自适应地对图进行了细化:
其中 是从所有不同视图中选择的子集的并集。在图模块中,论文对图卷积和 DTWPool 进行迭代操作,从而得到一个图序列 。
信息节点的数量在不同的文本序列中是不同的。在图的池化过程中,保持重要信息是很重要的。这个图中的节点嵌入了丰富的上下文信息
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。