赞
踩
DeBerta与BERT不同,主要创新点:(1)Disentangled attention(解开的注意力)(2)Enhanced mask decoder(增强掩码解码器)
解开的注意力其实是用两个向量分别表示Content embedding和Position embedding
上边的i和j之间的交叉注意力分数包含了content-to-content(内容到内容), content-to-position(内容到位置),position-to-content(位置到内容), and position-to-position(位置到位置)信息,现有的相对位置编码方法使用单独的嵌入矩阵来计算计算注意力权重的相对位置偏差。这相当于仅使用等式 (2) 中的内容到内容和内容到位置项(content-to-content, content-to-position)来计算注意力权重。我们认为位置到内容项也很重要,因为词对的注意力权重不仅取决于它们的内容,还取决于它们的相对位置,这只能通过内容到位置和位置到内容项完全建模。由于本方法使用相对位置嵌入,因此位置到位置项不提供太多附加信息,在本方法的实现中从等式 (2) 中删除。
与 BERT 不同,其中输入层中的每个单词都使用一个向量来表示,该向量是其单词(内容)嵌入和位置嵌入的总和,DeBERTa 中的每个词分别使用编码其内容和位置的两个向量来表示,单词之间的注意力权重分别使用基于其内容和相对位置的解开矩阵计算。这是因为观察到词对的注意力权重不仅取决于它们的内容,还取决于它们的相对位置。例如,当单词“deep”和“learning”彼此出现时,单词“deep”和“learning”之间的依赖关系比它们出现在不同的句子中时更强。
与 BERT 一样,DeBERTa 使用掩码语言建模 (MLM) 进行预训练。MLM 是一个填空任务,其中模型被教导使用掩码标记周围的单词来预测掩码单词应该是什么。DeBERTa 使用上下文词的内容和位置信息进行 MLM。解开的注意力机制已经考虑了上下文词的内容和相对位置,而不是这些词的绝对位置,在许多情况下对预测至关重要。考虑句子“a new store opened beside the new mall”,斜体词“store”和“mall”被屏蔽进行预测。尽管两个词的局部上下文相似,但它们在句子中扮演不同的句法角色。(例如,句子的主题是“store”而不是“mall”。)这些句法细微差别在很大程度上取决于单词在句子中的绝对位置,因此考虑单词在语言建模过程中的绝对位置很重要。DeBERTa 在 softmax 层之前包含正确的绝对词位置嵌入,其中模型基于词内容和位置的聚合上下文嵌入对掩码词进行解码
此外,该方法提出了一种新的虚拟对抗训练方法,用于将 PLMs 微调到下游 NLP 任务中。该方法可有效提高模型的泛化能力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。