赞
踩
KGBERT论文阅读
(1) 提出了一种具有知识图(KG)的知识支持的语言表示模型(K-BERT)即 Knowledge-Enabled Language Representation Model. 通过配备KG轻松地将领域知识注入到模型中,而无需自我预训练,因为它能够从预训练的BERT加载模型参数。
(2)在特定领域的任务(包括金融、法律和医学)中,K-BERT显著优于BERT,这表明K-BERT是解决需要专家的知识驱动问题的最佳选择(Knowledge-driven problems that require experts)。
本文的贡献如下:
- 提出了一种知识赋能的LR模型,即K-BERT,它与BERT兼容,可以在没有HES和KN问题的情况下结合领域知识;
- 随着KG的精妙地注入,K-BERT不仅在特定领域的任务上显著优于BERT,而且在开放领域的许多任务上也优于BERT;
- K-BERT的代码和自主开发的知识图放于https://github.com/autoliuweijie/K-BERT。
(图片说明)K-BERT的模型架构:与其他RL模型相比,K-BERT具有可编辑的KG,可根据其应用领域进行调整。例如,对于电子病历分析,我们可以使用一个医疗KG来授予具有医疗知识的K-BERT,
- K -BERT的模型架构由四个模块组成,分别是知识层Knowledge Layer、嵌入层Embedding Layer、观察层Seeing Layer和掩模转换器Mask-Transformer。
- 对于输入的句子,知识层首先从KG中往原句注入相关的三元组,将其转化为知识丰富的句子树。然后将句子树同时输入至Embeddin层和Seeing层。然后转换为token级embedding表示和可见矩阵visible matrix。使用可见矩阵来控制每个token的可见区域,防止由于太多的知识注入而改变原始句子的含义。
知识层Knowledge Layer
(1)知识层(KL)用于句子知识注入和句子树转换。
(2)具体来说,给定一个输入句子s = {w0, w1, w2,…, wn}和KG-K,输出句子树t = {w0, w1,…, wi{(ri0, wi0),…, (rik, wik),…, wn}。该过程可分为两个步骤:知识查询(K-Query)和知识注入(K-Inject)。
(3)在K-Query中,将句子中涉及的所有实体名称从K中选择出来,查询其对应的三元组。K-Query可以表述为如下:
其中E = {(wi, ri0, wi0),…, (wi, rik, wik)}是对应三元组的集合。
(4)K-Inject通过将E中的三元组拼接到相应的位置,将查询到的E注入到句子s中,生成句子树t, t的结构如图3所示。
句子树可以有多个分支,但其深度固定为1,这意味着三元组中的实体名称不会迭代派生分支,K-Inject公式为如下:
嵌入层Embedding Layer
(1)嵌入层的作用是将句子树转换为嵌入表示,并将其输入到Mask-Transformer中。
(2)与BERT相似的是,K-BERT的嵌入表示是三个部分的总和:标记嵌入token、位置嵌入soft-position和段segment嵌入。但不同的是,K-BERT的嵌入层的输入是一个句子树,而不是一个标记token序列。
因此,如何在保留句子树结构信息的前提下,将句子树转化为序列是KBERT的关键。
(3)Token embedding:与BERT一致,本文采用Google BERT提供的词汇表。通过一个可训练的查找表,将句子树中的每个token转换为一个维数为H的嵌入向量。此外,K-BERT还使用[CLS]作为分类标记,并使用[MASK]来mask tokens。K-BERT和BERT的token嵌入的区别在于,句子树中的token需要在嵌入操作之前重新排列。在我们的重新排列策略中,分支中的令牌被插入到相应的节点之后,而后续的令牌被向后移动。
如上图所示,句子树被重新排列为“Tim Cook CEO Apple is visiting Beijing capital China is a City now”。这一过程虽然简单,但却使句子无法读懂,丢失了正确的结构信息。解决办法为通过软位置 soft-position和可见矩阵 visible matrix来求解。
(4)soft-position embedding:对于BERT,如果没有位置嵌入position-embedding,它将相当于一个词袋模型,导致结构信息(即token的顺序)的缺乏。BERT输入句子的所有结构信息都包含在位置嵌入中,这允许我们将缺失的结构信息添加回不可读的重排句子中。举例:在重排之后,[CEO] 和 [Apple] 插入 [Cook]和[is]之间, 但是[is] 的主语应该为 [Cook]而不是[Apple]。为了解决这个问题,只需要将[is]的位置数设置为3而不是5。在计算self-attention score 中的 transformer encoder时,[is]是在[Cook]的下一个位置。然而,存在问题为[is]和[CEO]的位置号都为3,在计算self-attention score时,它们的位置很接近,但实际上它们之间并没有联系。解决这个问题的方法是“Mask-Self-Attention”。
(5)Segment embedding:和BERT一样,K-BERT在包含多个句子时也使用分段嵌入来识别不同的句子。例如,当两个句子{w00, w01,…, w0n}和{w10, w11,…, w1m}组合成一个句子{[CLS], w00, w01,…, w0n, [SEP], w10, w11,…, w1m}(用[SEP])。对于组合句,用一组段标记{A, A, A, A,…, A,B,B,…B}。在分段嵌入中,上图第一句中的所有标记都被标记为“A”。
观察层Seeing Layer
(1)K-BERT和BERT最大的区别就是此层,也是这个方法如此有效的原因。
(2)K-BERT的输入是一个句子树,其中的分支是从KG获得的知识。然而,知识带来的风险是,它可能导致原句的意思发生变化,即KN问题。例如,在图2的句子树中,[China]只修饰了[Beijing],与[Apple]没有任何关系。因此,[Apple]的表示不应受到[China]的影响。并且,用于分类的[CLS]标签不应该绕过[Cook]来获取[Apple]的信息,因为这样会带来语义变化的风险。为了防止这种情况发生,K-BERT使用一个可见矩阵M来限制每个token的可见区域,这样[Apple]和[China], [CLS]和[Apple]彼此就不可见了。可见矩阵M定义为如下:
Wi-Wj表示Wi和Wj在同一个分支中,Wi /Wj则表示不是在同一分支中。I和j是hard-position index。在 hard-position中,句子树中的token被平铺成一个token嵌入序列
Mask-Transformer
(1)可见矩阵M在一定程度上包含了句子树的结构信息。BERT中的Transformer编码器不能接收M作为输入,因此我们需要将其修改为Mask-Transformer,可以根据M修改限制self-attention区域。Mask-Transformer是一个由多个mask-self-attention块组成的堆栈。作为BERT,将层数(i.e.,mask-self-attention blocks)表示为L,hidden size为H,mask-self-attention head表示为A。
(2)Mask-Self-Attention
为了利用M中的句子结构信息防止错误的语义变化,我们提出了一个 mask-self-attention,它是self-attention的延伸。从形式上讲,mask-self-attention是如下:
Wq、Wk和Wv是可训练的模型参数,hi是第i个mask-self-attention的隐藏状态,dk是比例因子1,M为seeing层计算的可见矩阵。如果wk对wj是不可见的,那么Mjk将把注意力评分Si+1(jk)屏蔽为0,这意味着wk对wj的隐藏状态没有贡献。为了抵消点积量级增大的影响,笔者将点积乘以1/√dk。
如图4所示,hi[Apple]对hi+1 [CLS]没有影响,因为[Apple]对[CLS]是不可见的。但是hi+1 [CLS]可以通过hi+1 [Cook]间接获取hi−1 [Apple]的信息,因为[Apple]对[Cook]可见,[Cook]对[CLS]可见。这个过程的好处是[Apple]丰富了[Cook]的表征,但不直接影响原句的意思。
详细介绍了12个中文NLP任务的K-BERT微调结果,其中8个是开放域任务,4个是特定域任务。
(1)在本文中,我们提出K-BERT方法来实现知识图的语言表示,实现常识或领域知识的能力。具体来说,K-BERT首先将KG的知识注入到句子中,使句子成为知识丰富的句子树。其次,采用软位置和可见矩阵控制知识范围,防止知识偏离其本义。
(2)尽管HES和KN存在挑战,但我们的研究在12个开放/特定领域的NLP任务上揭示了有希望的结果。实证结果表明,KG方法对知识驱动的特定领域任务特别有帮助,可以用于解决需要领域专家的问题。此外,K-BERT与BERT的模型参数兼容,这意味着用户可以直接在K-BERT上采用已有的经过预训练的BERT参数(如谷歌BERT、Baidu-ERNIE等),而无需自己进行预训练。
(3)这些积极的结果指向未来的工作:
第一:改进K-Query,使其能够基于上下文过滤不重要的三元组;
第二:将该方法扩展到其他LR模型,如ELMo (Peters等,2018),XLNet (Yang等,2019)等;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。