当前位置:   article > 正文

上海交通大学提出:更好的语言模型预训练需要更好的Masking

上交做nlp的

进NLP群—>加入NLP交流群

8f6031f2f34d2a9392035bd250cc4cc8.png

一句话总结

BERT当初暴利随机masking 15%的机制肯定是有问题的,比如应该着重masking那些实词,而少关注标点符号等虚词;另外从前到后的15%比例也有很大的改进空间。上交就是根据上面的问题提出了两种time-variant(随时间变化) masking方式,分别为Masking Ratio Decay (MRD)和POS-Tagging Weighted (PTW) Masking,并取得了相当好的效果。

论文: Learning Better Masking for Better Language Model Pre-training
地址: https://arxiv.org/pdf/2208.10806v2.pdf
单位: 上海交通大学

摘要

掩蔽语言模型 (MLM) 已被广泛用作预训练语言模型 (PrLM) 中的去噪目标。

现有的 PrLMs 通常采用 Random-Token Masking 策略,其中应用固定的掩蔽率,并且在整个训练过程中以相等的概率掩蔽不同的内容。

然而,模型可能会受到预训练状态的复杂影响,随着训练时间的推移,预训练状态会相应地发生变化。

063a7fe9f5f06008cd3270c77eeb5771.png
实词和虚词的不同masking

在本文中,我们表明这种时变 MLM 设置对屏蔽率和屏蔽内容不太可能提供最佳结果,这促使我们探索时变 MLM 设置的影响。

6ba28ec8f2e52c80139f5b86fd1ed68a.png
不同ratios在SQuAD v1.1上的表现

我们提出了两种预定的掩码方法,可以在不同的训练阶段自适应地调整掩码率和掩码内容,从而提高预训练效率和在下游任务上验证的有效性。

我们的工作是关于比率和内容的时变掩蔽策略的开创性研究,可以更好地理解掩蔽率和掩蔽内容如何影响 MLM 预训练。

e4e95c670ac6482bd265566e11885e13.png
两种不同的decay
80d0b428467bf7b1acccb5057420ef64.png 48f99576b3077d7bce89163157e20d7a.png
不同类型word的损失累计。实线为实词,虚线为虚词。
76fc65c563fb64d097a58d62e8973114.png
不同类型word的权重变化

一些问题解释

masking ratio:为什么时变掩蔽比不是最佳选择?

从实验结果来看,有这样一个经验规律:一开始,高masking ratio的downstream performance起点较高,但增长速度相对较慢,赶上了masking ratio为的模型15%。

也就是说,masking ratio为15%的模型起点较低,但后期性能提升较快。

鉴于这一观察,我们表明我们可以应用相对较高的掩蔽率来训练模型,以使用更少的时间获得更好的模型。

另一方面,我们将较低的掩蔽率应用于训练模型,如果我们训练足够的时间,则可以获得更好的下游性能。但是如果我们使用衰减的masking ratio而不是固定的masking ratio,我们可以吸收高masking ratio和低masking ratio的优点。

Masked Content:为什么Random-Token Masking不是最优的?

对于一个句子,实词和虚词的数量非常相似。因此,对于 Random-Token Masking,模型同样重视从这两种词中学习。

然而,图中的实验结果表明,语言模型耗散了它对一些功能词建模的努力,这些功能词的损失非常低。同时,Random-Token Masking 让模型不太可能学习那些本应学习更多的非功能词,这肯定会产生次优的预训练结果。

模型

27070ca55525ce224f7112c09e10e71f.png

Masking Ratio Decay (MRD)很简单就不多做解释了,但是POS-Tagging Weighted (PTW) Masking方法估计大家对细节会有疑惑,所以还是看下面的论文解释吧:642f60c5ccfe695838cd986187c84e3b.png

2f170d86e380c5045f538d24e990adc3.png

实验分析

b841e1000910feabda58d3a5b56ead11.png
Masking Ratio Decay实验对比
e1f9175ff03177347d077e264263eb7c.png
POS-Tagging Weighted (PTW) Masking实验对比
0f25070882464e0003bac7005c5759a1.png
原始固定ratio和cosine decay对比

另外,作者也做了其他decay的花式尝试:

495cd6e73c512b4a4e7f309b673cb7c2.png
各种花式变化
a7d45ad7feafec80cb921b2390252fc4.png
其他decay对比

总结

掩码语言模型预训练通常可以由两个主要因素来定义,掩码率和掩码内容。现有研究采用的 Random-Token Masking 方案平等对待所有单词,并在整个预训练过程中保持固定比例,这在我们的分析中显示为次优。

为了更好地发挥 MLM 的优势,我们探索了两种时变掩蔽策略,即掩蔽比衰减 (MRD) 和词性标记加权 (PTW) 掩蔽。

实验结果验证了我们的假设,即 MLM 受益于根据动态训练状态的掩蔽率和掩蔽内容的时变设置。我们的进一步分析表明,这两种时变掩蔽计划极大地提高了预训练效率和下游任务的性能。


最后给大家推荐一下最近小编从最新的斯坦福NLP的公开课都放到了bilibili上了,都已做了中英翻译,大部分已经更新完毕了,给需要的小伙伴~

是最新的呦~

目录

  • 词向量

  • 神经分类器

  • 反向传播和神经网络

  • 句法结构

  • RNN

  • LSTM

  • 机器翻译、Seq2Seq和注意力机制

  • 自注意力和Transformer

  • Transformers和预训练

  • 问答

  • 自然语言生成

  • 指代消解

  • T5和大型预训练模型

  • 待更...

d29373e73f35eb0d237d142ad5277e30.png

点击阅读原文直达b站~


进NLP群—>加入NLP交流群

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/360132
推荐阅读
相关标签
  

闽ICP备14008679号