当前位置:   article > 正文

读论文——DeBERTa(2021)_deberta论文

deberta论文

第一遍

  • 标题:DEBERTA: DECODING-ENHANCED BERT WITH DIS-ENTANGLED ATTENTION
  • 作者:Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen1微软研究院
  • 摘要:
    1. 分离注意力机制,每个词用两个向量表示,分别表示内容和位置,利用分离矩阵计算注意力权重分数
    2. 在模型预训练过程中,使用增强的掩码解码器在解码层中合并绝对位置,来预测掩码Token
    3. 使用一种新的虚拟对抗训练方法对模型进行微调,提升模型泛化能力。
    4. 提升了预训练模型在NLU和NLG下游任务上的表现
    5. 提升了MNLI、SQuAD v2.0 RACE上的表现
    6. 48层Transform、1.5 billion 参数、超过了SuperGLUE上人类的表现(89.9)
  • 结论:
    1. DeBERTa在SuperGLUE上超过了人类,但是在NLU绝对没有人类水准,人类具有一种组合泛化能力,可以将新任务划分了熟悉的小任务,然后去解决新任务。
    2. 展望未来,我们有必要探索如何让DeBERTa以一种更加明确的方式整合组合结构,这样就可以将自然语言的神经计算和符号计算结合起来,就像人类所做的那样。
  • 介绍
    1. Disentangle attention:
      1. 不像BERT将词嵌入和位置编码直接相加然后计算注意力权重,这里分别计算词嵌入和位置编码的注意力权重;因为注意力权重不仅取决于序列的内容,也取决于序列的相对位置。例如:当“深度”和“学习”(内容权重)并排(位置权重)出现时,它们之间的依赖关系比它们出现在不同的句子中时要强很多。
    2. Enhanced mask decoder:
      1. 绝对位置在解码过程中,很重要。例如:a new store opened beside the new mallstoremall两个词意思相似,但是它们在句子中扮演不同句子成分。
      2. 根据词内容和位置的聚合上下文嵌入(编码的输出),在模型解码掩码字的softmax层之前合并词的绝对位置嵌入。
    3. 提出了新的虚拟对抗训练方法,用于下游NLP任务进行微调

第二遍

重要的图表

  1. Table 1

    在这里插入图片描述

    比较不同模型在GLUE dev上的结果

  2. Table 2

    在这里插入图片描述

    比较在MNLI in/out-domain等上的结果

  3. table 3

    在这里插入图片描述

  4. table 4

在这里插入图片描述

DeBERTa上的Ablation study

  1. table 5

在这里插入图片描述

SuperGLUE上的测试集结果

第三遍

2. Background

2.1 Transformer

  1. 编码过程中,相对位置编码更加有效。
  2. 本文采用分离的词嵌入和相对位置编码

2.2 Masked Language Model(带掩码的语言模型)

  1. 公式:
    max θ log p θ ( X ∣ X ~ ) = max θ ∑ i ∈ C log p θ ( x ~ i = x i ∣ X ~ ) \text{max}_{\theta}\text{log}p_{\theta}(X|\widetilde{X}) = \text{max}_{\theta}\sum_{i \in C}\text{log}p_{\theta}(\widetilde{x}_i = x_i|\widetilde{X}) maxθlogpθ(XX )=maxθiClogpθ(x i=xiX )
    X : 表 示 需 要 重 建 的 序 列 X ~ : 表 示 带 掩 码 的 序 列 C : 表 示 序 列 中 掩 码 的 索 引 X:表示需要重建的序列 \\ \widetilde{X}:表示带掩码的序列 \\ C:表示序列中掩码的索引 X:X :C:

3. The DeBERTa Architecture

3.1 分离注意力机制

  1. 对于在位置 i i i的token,使用 H i {H_i} Hi P i ∣ j {P_{i|j}} Pij分别表示内容和相对位置, j j j是是一个token的位置

    计算 t o k e n i token_i tokeni t o k e n j token_j tokenj注意力分数公式如下:
    A i , j = { H i , P i ∣ j } × { H j , P j ∣ i } T = H i H j T + H i P j ∣ i T + P i ∣ j H j T + P i ∣ j P j ∣ i T

    Ai,j={Hi,Pi|j}×{Hj,Pj|i}T=HiHjT+HiPj|iT+Pi|jHjT+Pi|jPj|iT
    Ai,j={Hi,Pij}×{Hj,Pji}T=HiHjT+HiPjiT+PijHjT+PijPjiT
    content-to-content,content-to-position,position-to-content, and position-to-position

  2. 单头的注意力机制
    Q = H W q , K = H W k , V = H W v , A = Q K T d H o = s o f t m a x ( A ) V H ∈ R N × d , 表 示 输 入 的 隐 藏 层 矩 阵 H o ∈ R N × d , 表 示 自 注 意 力 层 的 输 出 W q , W k , W v ∈ R d × d , 表 示 投 影 矩 阵 A ∈ R N × N , 表 示 注 意 力 分 数 矩 阵 N 表 示 序 列 长 度 , d 表 示 隐 藏 层 维 度 Q = HW_q,K = HW_k, V=HW_v,A=\frac{QK^T}{\sqrt{d}} \\ H_o = softmax(A)V \\ H \in R^{N \times d},表示输入的隐藏层矩阵 \\ H_o \in R^{N \times d},表示自注意力层的输出 \\ W_q,W_k,W_v \in R^{d \times d},表示投影矩阵 \\ A \in R^{N \times N},表示注意力分数矩阵 \\ N表示序列长度,d表示隐藏层维度 Q=HWq,K=HWk,V=HWv,A=d QKTHo=softmax(A)VHRN×dHoRN×dWq,Wk,WvRd×dARN×NNd
    k k k表示最大的相对距离, δ ( i , j ) ∈ [ 0 , 2 k ) \delta(i,j) \in [0,2k) δ(i,j)[0,2k)表示从 t o k e n i token_i tokeni t o k e n j token_j tokenj的相对距离
    d e l t a ( i , j ) = { 0 f o r i − j ≤ − k 2 f o r i − j ≥ k i − j + k o t h e r . delta(i,j) = \left \{

    0forijk2forijkij+kother.
    \right. delta(i,j)=02ij+kforijkforijkother.

  3. 基于相对位置编码的分离注意力机制
    Q c = H W q , c , K c = H W k , c , V c = H W v , c , Q r = P W q , r , K r = P W k , r A ~ i , j = Q i c K j c ⊤ ⏟ (a) content-to-content  + Q i c K δ ( i , j ) r ⊤ ⏟ (b) content-to-position  + K j c Q δ ( j , i ) r ⊤ ⏟ (c) position-to-content  H o = softmax ⁡ ( A ~ 3 d ) V c Q c , K c , V c 投 影 后 的 内 容 向 量 W q , c , W k , c , W v , c ∈ R d × d P ∈ R 2 k × d 不 变 的 Q r 和 K r 表 示 投 影 后 的 相 对 位 置 向 量 W q , r , W k , r ∈ R d × d A ~ i , j 表 示 从 t o k e n i 到 t o k e n j 的 注 意 力 分 数

    Qc=HWq,c,Kc=HWk,c,Vc=HWv,c,Qr=PWq,r,Kr=PWk,rA~i,j=QicKjc(a) content-to-content +QicKδ(i,j)r(b) content-to-position +KjcQδ(j,i)r(c) position-to-content Ho=softmax(A~3d)Vc
    \\ Q_c,K_c,V_c投影后的内容向量 \\ W_{q,c},W_{k,c},W_{v,c} \in R^{d \times d} \\ P \in R^{2k \times d}不变的 \\ Q_r和K_r表示投影后的相对位置向量 \\ W_{q,r},W_{k,r} \in R^{d \times d} \\ \tilde{A}_{i,j}表示从token_i到token_j的注意力分数 \\ Qc=HWq,c,Kc=HWk,c,Vc=HWv,c,Qr=PWq,r,Kr=PWk,rA~i,j=(a) content-to-content  QicKjc+(b) content-to-position  QicKδ(i,j)r+(c) position-to-content  KjcQδ(j,i)rHo=softmax(3d A~)VcQc,Kc,VcWq,c,Wk,c,Wv,cRd×dPR2k×dQrKrWq,r,Wk,rRd×dA~i,jtokenitokenj
    note:

    1. K j c Q δ ( j , i ) r \boldsymbol{K}_{\boldsymbol{j}}^{c} \boldsymbol{Q}_{\boldsymbol{\delta}(\boldsymbol{j}, \boldsymbol{i})}^{r} KjcQδ(j,i)r中使用 δ ( j , i ) \delta(j,i) δ(j,i)因为这里是position-to-content,位置在 j j j,查询的内容在相对于 j j j的位置 i i i δ ( j , i ) \delta(j,i) δ(j,i)
    2. 最终的 A ~ \tilde{A} A~除以 3 d \sqrt{3d} 3d
  4. 算法过程

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iHyZFV1j-1637646395985)(C:\Users\nabai\Documents\markdown图片\image-20211122145941077.png)]

3.2 增强的掩码解码器用来解释绝对的词位置

  1. 在所有Transformer层后,softmax层前加入绝对位置
  2. 本文推测:BERT提前使用绝对位置(position embedding)阻碍了模型学习足够的相对位置信息

4. Scale Invariant Fine-Tuning

将扰动应用于正则化的词嵌入

5. Experiment

5.1 在NLU任务上结果

见Table1,Table2

5.2 模型分析

5.2.1 Ablation研究
  1. -EMD表示不带增强的掩码解码层
  2. -C2P表示不带content-to-position
  3. -P2C表示不带position-to-content

结果表明:这三个部分都会对最终结果有影响

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号