赞
踩
进NLP群—>加入NLP交流群
BERT当初暴利随机masking 15%的机制肯定是有问题的,比如应该着重masking那些实词,而少关注标点符号等虚词;另外从前到后的15%比例也有很大的改进空间。上交就是根据上面的问题提出了两种time-variant(随时间变化) masking方式,分别为Masking Ratio Decay (MRD)和POS-Tagging Weighted (PTW) Masking,并取得了相当好的效果。
论文: Learning Better Masking for Better Language Model Pre-training
地址: https://arxiv.org/pdf/2208.10806v2.pdf
单位: 上海交通大学
掩蔽语言模型 (MLM) 已被广泛用作预训练语言模型 (PrLM) 中的去噪目标。
现有的 PrLMs 通常采用 Random-Token Masking 策略,其中应用固定的掩蔽率,并且在整个训练过程中以相等的概率掩蔽不同的内容。
然而,模型可能会受到预训练状态的复杂影响,随着训练时间的推移,预训练状态会相应地发生变化。
在本文中,我们表明这种时变 MLM 设置对屏蔽率和屏蔽内容不太可能提供最佳结果,这促使我们探索时变 MLM 设置的影响。
我们提出了两种预定的掩码方法,可以在不同的训练阶段自适应地调整掩码率和掩码内容,从而提高预训练效率和在下游任务上验证的有效性。
我们的工作是关于比率和内容的时变掩蔽策略的开创性研究,可以更好地理解掩蔽率和掩蔽内容如何影响 MLM 预训练。
从实验结果来看,有这样一个经验规律:一开始,高masking ratio的downstream performance起点较高,但增长速度相对较慢,赶上了masking ratio为的模型15%。
也就是说,masking ratio为15%的模型起点较低,但后期性能提升较快。
鉴于这一观察,我们表明我们可以应用相对较高的掩蔽率来训练模型,以使用更少的时间获得更好的模型。
另一方面,我们将较低的掩蔽率应用于训练模型,如果我们训练足够的时间,则可以获得更好的下游性能。但是如果我们使用衰减的masking ratio而不是固定的masking ratio,我们可以吸收高masking ratio和低masking ratio的优点。
对于一个句子,实词和虚词的数量非常相似。因此,对于 Random-Token Masking,模型同样重视从这两种词中学习。
然而,图中的实验结果表明,语言模型耗散了它对一些功能词建模的努力,这些功能词的损失非常低。同时,Random-Token Masking 让模型不太可能学习那些本应学习更多的非功能词,这肯定会产生次优的预训练结果。
Masking Ratio Decay (MRD)很简单就不多做解释了,但是POS-Tagging Weighted (PTW) Masking方法估计大家对细节会有疑惑,所以还是看下面的论文解释吧:
另外,作者也做了其他decay的花式尝试:
掩码语言模型预训练通常可以由两个主要因素来定义,掩码率和掩码内容。现有研究采用的 Random-Token Masking 方案平等对待所有单词,并在整个预训练过程中保持固定比例,这在我们的分析中显示为次优。
为了更好地发挥 MLM 的优势,我们探索了两种时变掩蔽策略,即掩蔽比衰减 (MRD) 和词性标记加权 (PTW) 掩蔽。
实验结果验证了我们的假设,即 MLM 受益于根据动态训练状态的掩蔽率和掩蔽内容的时变设置。我们的进一步分析表明,这两种时变掩蔽计划极大地提高了预训练效率和下游任务的性能。
最后给大家推荐一下最近小编从最新的斯坦福NLP的公开课都放到了bilibili上了,都已做了中英翻译,大部分已经更新完毕了,给需要的小伙伴~
是最新的呦~
目录
词向量
神经分类器
反向传播和神经网络
句法结构
RNN
LSTM
机器翻译、Seq2Seq和注意力机制
自注意力和Transformer
Transformers和预训练
问答
自然语言生成
指代消解
T5和大型预训练模型
待更...
点击阅读原文直达b站~
进NLP群—>加入NLP交流群
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。