赞
踩
https://arxiv.org/pdf/2006.03654
提出了一个名为DeBERTa(Decoding-enhanced BERT with disentangled attention)的模型架构,通过两种新颖技术改进了现有的BERT和RoBERTa模型。DeBERTa模型的原理和改进点如下:
DeBERTa和BERT一样使用MLM进行预训练,使用掩码token周围的单词来预测掩码词,解耦注意机制已经考虑了语境词的内容和相对位置,但没有考虑这些词的绝对位置,绝对位置在很多情况下对预测至关重要。
BERT模型在输入层中包含绝对位置,在DeBERTa中,为了融合绝对位置信息,将它们合并在所有Transformer层之后,但在用于掩码token预测的softmax层之前,如下图所示:
通过这种方式,DeBERTa捕获所有Transformer层中的相对位置,并且在解码被屏蔽的单词时仅使用绝对位置作为补充信息,并称DeBERTa的解码组件为增强型掩码解码器(EMD)。
虚拟对抗训练(Scale-invariant-Fine-Tuning,参考[SiFT1,SiFT2])是一种提高模型泛化能力的正则化方法。它通过提高模型对对抗性样本的鲁棒性来实现这一点,对抗性样本是通过对输入进行小扰动而产生的。该模型是正则化的,因此当给定特定任务的示例时,该模型产生的输出分布与该示例的对抗性扰动产生的输出分布相同。
算法通过对归一化词嵌入应用扰动来提高训练稳定性。在文章实验中,当对DeBERTa进行下游NLP任务微调时,SiFT首先将单词嵌入向量归一化为随机向量,然后将扰动应用于归一化的嵌入向量。结果发现归一化极大地提高了微调模型的性能。对于较大的DeBERTa型号,改进更为突出。请注意,实验中只将SiFT应用于DeBERTa1.5B的SuperGLUE任务。
DeBERTa模型适合的任务包括但不限于:
自然语言理解(NLU)任务,如文本分类、问答、自然语言推理等。
自然语言生成(NLG)任务,如文本生成、摘要等。
特别是那些需要理解文本中单词之间复杂关系的任务,DeBERTa的解耦注意力机制可以更好地捕捉这些关系。
与BERT相比,DeBERTa的改进点主要包括:
性能提升:在多种自然语言处理(NLP)任务上,DeBERTa显示出比RoBERTa更好的性能,即使在训练数据量减半的情况下也是如此。
效率:DeBERTa在预训练和下游任务的性能上都显示出显著的效率提升。
更好的泛化能力:通过虚拟对抗训练方法,DeBERTa在微调时展现出更好的泛化能力。
在论文中,DeBERTa在多个NLP基准测试中取得了优异的成绩,包括在SuperGLUE基准测试中首次超越人类表现,这表明DeBERTa在多项语言理解任务上具有强大的性能。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。