读论文——DeBERTa（2021）_deberta论文

作者：盐析白兔 | 2024-04-10 14:27:01

踩

deberta论文

第一遍

标题：DEBERTA: DECODING-ENHANCED BERT WITH DIS-ENTANGLED ATTENTION
作者：Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen1微软研究院
摘要：
1. 分离注意力机制，每个词用两个向量表示，分别表示内容和位置，利用分离矩阵计算注意力权重分数
2. 在模型预训练过程中，使用增强的掩码解码器在解码层中合并绝对位置，来预测掩码Token
3. 使用一种新的虚拟对抗训练方法对模型进行微调，提升模型泛化能力。
4. 提升了预训练模型在NLU和NLG下游任务上的表现
5. 提升了MNLI、SQuAD v2.0 RACE上的表现
6. 48层Transform、1.5 billion 参数、超过了SuperGLUE上人类的表现（89.9）
结论:
1. DeBERTa在SuperGLUE上超过了人类，但是在NLU绝对没有人类水准，人类具有一种组合泛化能力，可以将新任务划分了熟悉的小任务，然后去解决新任务。
2. 展望未来，我们有必要探索如何让DeBERTa以一种更加明确的方式整合组合结构，这样就可以将自然语言的神经计算和符号计算结合起来，就像人类所做的那样。
介绍
1. Disentangle attention:
  1. 不像BERT将词嵌入和位置编码直接相加然后计算注意力权重，这里分别计算词嵌入和位置编码的注意力权重；因为注意力权重不仅取决于序列的内容，也取决于序列的相对位置。例如：当“深度”和“学习”（内容权重）并排（位置权重）出现时，它们之间的依赖关系比它们出现在不同的句子中时要强很多。
2. Enhanced mask decoder：
  1. 绝对位置在解码过程中，很重要。例如：a new store opened beside the new mall中store和mall两个词意思相似，但是它们在句子中扮演不同句子成分。
  2. 根据词内容和位置的聚合上下文嵌入（编码的输出），在模型解码掩码字的softmax层之前合并词的绝对位置嵌入。
3. 提出了新的虚拟对抗训练方法，用于下游NLP任务进行微调

第二遍

重要的图表

Table 1

比较不同模型在GLUE dev上的结果
Table 2

比较在MNLI in/out-domain等上的结果
table 3
table 4

在这里插入图片描述

DeBERTa上的Ablation study

table 5

在这里插入图片描述

SuperGLUE上的测试集结果

第三遍

2. Background

2.1 Transformer

编码过程中，相对位置编码更加有效。
本文采用分离的词嵌入和相对位置编码

2.2 Masked Language Model(带掩码的语言模型)

公式：
$\text{max}_{\theta}\text{log}p_{\theta}(X|\widetilde{X}) = \text{max}_{\theta}\sum_{i \in C}\text{log}p_{\theta}(\widetilde{x}_i = x_i|\widetilde{X})$
$\\ \widetilde{X}:表示带掩码的序列 \\ C:表示序列中掩码的索引$

3. The DeBERTa Architecture

3.1 分离注意力机制

对于在位置 $i$ 的token，使用 ${H_i}$ 和 ${P_{i|j}}$ 分别表示内容和相对位置， $j$ 是是一个token的位置

计算 $token_i$ 和 $token_j$ 注意力分数公式如下：

$\begin{aligned} A_{i, j} & = {H_{i}, P_{i | j}} \times {H_{j}, P_{j | i}}^{T} \\ = H_{i} H_{j}^{T} + H_{i} P_{j | i}^{T} + P_{i | j} H_{j}^{T} + P_{i | j} P_{j | i}^{T} \end{aligned}$ $\begin{aligned} A_{i,j} & = \{H_i,P_{i|j}\} \times \{H_j,P_{j|i}\}^{T} \\ & = H_iH_j^T + H_iP_{j|i}^T + P_{i|j}H_j^T + P_{i|j}P_{j|i}^T \end{aligned}$ $A_{i, j} = {H_{i}, P_{i ∣ j}} \times {H_{j}, P_{j ∣ i}}^{T} = H_{i} H_{j}^{T} + H_{i} P_{j ∣ i}^{T} + P_{i ∣ j} H_{j}^{T} + P_{i ∣ j} P_{j ∣ i}^{T}$
content-to-content,content-to-position,position-to-content, and position-to-position
单头的注意力机制
$HW_q,K = HW_k, V=HW_v,A=\frac{QK^T}{\sqrt{d}} \\ H_o = softmax(A)V \\ H \in R^{N \times d}，表示输入的隐藏层矩阵 \\ H_o \in R^{N \times d}，表示自注意力层的输出 \\ W_q,W_k,W_v \in R^{d \times d}，表示投影矩阵 \\ A \in R^{N \times N}，表示注意力分数矩阵 \\ N表示序列长度，d表示隐藏层维度$
$k$ 表示最大的相对距离， $\delta(i,j) \in [0,2k)$ 表示从 $token_i$ 到 $token_j$ 的相对距离
$\left \{$
$\begin{aligned} 0 & f o r i - j \leq - k \\ 2 & f o r i - j \geq k \\ i - j + k & o t h e r . \end{aligned}$ $\begin{aligned} &0 &for \quad i - j \leq -k \\ &2 &for \quad i -j \ge k \\ &i -j +k &other. \end{aligned}$ \right. $d e l t a (i, j) = ⎩ ⎪ ⎨ ⎪ ⎧ 02 i - j + k f o r i - j \leq - k f o r i - j \geq k o t h e r .$
基于相对位置编码的分离注意力机制

$\begin{matrix} Q_{c} = H W_{q, c}, K_{c} = H W_{k, c}, V_{c} = H W_{v, c}, Q_{r} = P W_{q, r}, K_{r} = P W_{k, r} \\ {\tilde{A}}_{i, j} = \underset{(a) content-to-content}{\underset{⏟}{Q_{i}^{c} K_{j}^{c ⊤}}} + \underset{(b) content-to-position}{\underset{⏟}{Q_{i}^{c} K_{δ (i, j)}^{r}^{⊤}}} + \underset{(c) position-to-content}{\underset{⏟}{K_{j}^{c} Q_{δ (j, i)}^{r}^{⊤}}} \\ H_{o} = softmax (\frac{\tilde{A}}{\sqrt{3 d}}) V_{c} \end{matrix}$
\\ Q_c,K_c,V_c投影后的内容向量 \\ W_{q,c},W_{k,c},W_{v,c} \in R^{d \times d} \\ P \in R^{2k \times d}不变的 \\ Q_r和K_r表示投影后的相对位置向量 \\ W_{q,r},W_{k,r} \in R^{d \times d} \\ \tilde{A}_{i,j}表示从token_i到token_j的注意力分数 \\ Qc=HWq,c,Kc=HWk,c,Vc=HWv,c,Qr=PWq,r,Kr=PWk,rA~i,j=(a) content-to-content QicKjc⊤+(b) content-to-position QicKδ(i,j)r⊤+(c) position-to-content KjcQδ(j,i)r⊤Ho=softmax(3d A~)VcQc,Kc,Vc投影后的内容向量Wq,c,Wk,c,Wv,c∈Rd×dP∈R2k×d不变的Qr和Kr表示投影后的相对位置向量Wq,r,Wk,r∈Rd×dA~i,j表示从tokeni到tokenj的注意力分数
note:
1. 在 $\boldsymbol{K}_{\boldsymbol{j}}^{c} \boldsymbol{Q}_{\boldsymbol{\delta}(\boldsymbol{j}, \boldsymbol{i})}^{r}$ 中使用 $\delta(j,i)$ 因为这里是position-to-content，位置在 $j$ ，查询的内容在相对于 $j$ 的位置 $i$ $\delta(j,i)$
2. 最终的 $\tilde{A}$ 除以 $\sqrt{3d}$
算法过程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iHyZFV1j-1637646395985)(C:\Users\nabai\Documents\markdown图片\image-20211122145941077.png)]

3.2 增强的掩码解码器用来解释绝对的词位置

在所有Transformer层后，softmax层前加入绝对位置
本文推测：BERT提前使用绝对位置（position embedding）阻碍了模型学习足够的相对位置信息

4. Scale Invariant Fine-Tuning

将扰动应用于正则化的词嵌入

5. Experiment

5.1 在NLU任务上结果

见Table1，Table2

5.2 模型分析

5.2.1 Ablation研究

-EMD表示不带增强的掩码解码层
-C2P表示不带content-to-position
-P2C表示不带position-to-content

结果表明：这三个部分都会对最终结果有影响

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】