当前位置:   article > 正文

DeBERTa (Decoding-enhanced BERT with disentangled attention)_deberta模型参数

deberta模型参数

1 简介

DeBERTa (Decoding-enhanced BERT with disentangled attention),如名字所述,有两个技术来改善BERT和RoBERTa,第一个是disentangled attention(解开的注意力),每个单词使用两个向量分别编码文本和位置,在单词们之间的注意力权重是通过使用它们的文本和相对位置的解开矩阵分别进行计算的。第2个技术是使用了一个加强的mask decoder,在decoding层引入绝对位置来预测masked tokens。

本文根据2021《DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION》翻译总结。

DeBERTa目前(2021-02-08)在GLUE 基准上第一名。大版本的DeBERTa(15亿参数)在SuperGLUE 基准的平均分数上第一次超越人类。不过这并不意味着模型达到了人类知识水平,人类拥有更好的合成综合能力,利用学到的知识处理新的问题

RNN处理文本是按顺序的,而transformer采用self-attention可以并行处理输入文本的每个单词。所以对于大规模的模型训练,transformer更好。

Disentangled attention:比如deep和learning这两个词,当它们相连出现在一起的时候,其之间的依赖性会更强,而当它们出现在不同句子里,其之间依赖性就不强。所以相对位置的注意力很有用。

Enhanced mask decoder:Disentangled attention考虑的是相对位置,所以我们还需考虑绝对位置。

2 背景知识

2.1 transformer位置编码

以前的方法是添加一个位置偏置到每一个输入单词embedding,所以每一个单词用一个向量表示,其依赖于文本和位置。这个位置偏置可以采用绝对位置embedding或者相对位置embedding。目前发现相对位置对语言理解和生成任务是更加有效的。

2.2 MASKED LANGUAGE MODEL(MLM)

在这里插入图片描述

2.3 Self-attention

在这里插入图片描述

3 DeBERTa模型结构

3.1 DISENTANGLED ATTENTION

在这里插入图片描述

上面公式的4项目分别对应着content-to-content, content-to-position, position-to-content, and position-to-position。
我们发现最后一项位置对位置(position-to-position)的注意力没有太多用,故我们用了前面三个。

disentangled self-attention with relative position公式如下,形式类似于2.3节:
在这里插入图片描述

其中当用k表示最大相对距离时,token i和token j的相对距离公式δ(i,j)∈[ 0,2k ),定义如下:
在这里插入图片描述

最终算法如下,空间复杂度O(kd):
在这里插入图片描述

3.2 ENHANCED MASK DECODER考虑绝对单词位置

例如语句“a new store opened beside the new mall”,仅使用相对位置不是能有效区分‘store’和‘mall’,因为它们两和‘new’有相同的绝对位置。所以我们需引入绝对位置。

有两种方法引入绝对位置。BERT 是在输入层引入绝对位置。而在DeBERTa,我们是在transformer层之后,在softmax 层(masked token 预测)之前,引入绝对位置。如下图:
在这里插入图片描述

这样的话,DeBERTa在所有的transformer层捕捉相对位置,仅当编码masked 单词时,使用绝对位置作为补充。因此,我们叫DeBERTa的编码单元为enhanced mask decoder(EMD)。
DeBERTa使用绝对位置的方法比BERT的好,我们推断在BERT中较早的引入绝对位置可能伤害了模型,使其不能足够的学习相对位置。

3.3 尺度不变微调

引入了一个虚拟的对抗训练,Scale-invariant-Fine-Tuning (SiFT),进行模型微调。
虚拟的对抗训练是一个正则化的方法来改善模型的泛化能力。
在输入中增加干扰。我们采用SiFT算法,在normalized word embedding上添加干扰。

4 实验结果

在这里插入图片描述

4.1 ABLATION STUDY

• -EMD is the DeBERTa base model without EMD.
• -C2P is the DeBERTa base model without the content-to-position term (© in Eq. 4).
• -P2C is the DeBERTa base model without the position-to-content term ((b) in Eq. 4). As XLNet also uses the relative position bias, this model is close to XLNet plus EMD.

可以看到如果没有EMD、C2P、P2C,模型的效果都会降低。
在这里插入图片描述

4.2 15亿(1.5Billion)参数的模型

DeBERTa_1.5B: 48层,hidden 大小等于1536,24个注意力头。训练数据有160G.
不过T5有11 billion参数,DeBERTa_1.5B参数量还是很小的,效果也更好。如下表:

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/498018
推荐阅读
相关标签
  

闽ICP备14008679号