赞
踩
BERT [1](Bidirectional Encoder Representation from Transformers)是由 Google AI 于 2018 年 10 月提出的一种基于深度学习的语言表示模型。BERT 发布时,在 11 种不同的自然语言处理(NLP)测试任务中取得最佳效果。
截至2022年6月,很多研究者又基于BERT提出了很多新的模型,本文旨在梳理基于BERT模型优化后部分预训练模型,以便读者能够更快掌握BERT相关内容,为后期工作中使用BERT相关模型提供便捷性。
BERT 主要的模型结构是 Transformer 的编码器部分。Transformer[2] 是由 Ashish 等于 2017年提出的,用于Google机器翻译,包含编码器(Encoder)和解码器(Decoder) 两部分。其中 BERT-base 与 BERT-large 模型分别采用了 12 层与 24 层的 Transformer 编码器作为模型网络层。相比于传统用于 NLP 任务的循环神经网络 (RNN)及长短时记忆网络(LSTM)等,Transformer 拥有更强大的文本编码能力,也能更高效地利用 GPU 等高性能设备完成大规模训练工作。
基于 BERT 模型的自然语言处理任务通过两个过程来实现:
自 BERT 发布以来,基于“预训练-微调”的两阶段方法逐渐成为自然语言处理研究的主流。
图片来源:参考文献[1]
ERNIE[3](Enhanced Representation through Knowledge Integration)是百度(清华几乎在同一时间[2019]也发布了ERNIE版本,不过现在社会上谈起ERNIE,大多指百度版ERNIE)在2019年4月基于BERT模型做的进一步优化,在中文的NLP任务上得到了state-of-the-art的结果。其主要是通过对知识进行整合,达到增强表达的目的。受BERT的掩码策略启发,ERNIE旨在学习由知识掩码策略增强的语言表征,其中包括实体级掩码和短语级掩码。实体级策略通常由多个单词组成的实体。短语级策略将由多个单词组成的整个短语作为一个概念单元进行屏蔽。
ERNIE和BERT的区别:
图片来源:参考文献[3]
在使用先验知识来增强预训练语言模型时ERNIE并没有直接添加知识嵌入,而是使用了一种多阶段知识掩码策略,将短语和实体集成到语言表示中。句子中不同的掩码级别如下图:
图片来源:参考文献[3]
基本级别的掩码
短语级别的掩码
实体级别的掩码
经过这三个阶段的学习,我们可以获得语义信息丰富的表达。
经过实验结果表明,在五个自然语言处理任务(包括自然语言推理,语义相似性,命名实体识别,情感分析和检索问答)上,ERNIE优于当时其他基准方法。此外ERNIE在完形填空测试中具有更强大的知识推理能力。
RoBERTa[4]是Facebook和华盛顿大学于2019年7月在论文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》中提出的。文章在 BERT模型的基础上提出了 BERT 模型的改进版 RoBERTa,使其获得了更好的自然语言任务处理效果,并在 GLUE,SQuAD,RACE 三个榜上取得最好的SOTA。
RoBERTa主要在三方面对之前提出的BERT做了改进:
DeBERTa[5](Decoding-enhanced BERT with Disentangled Attention)是微软发表于ICLR2021上的预训练语言模型。2021年1月DeBERTa在SuperGLUE这项自然语言理解基准任务上**「超越人类」**,以90.3分夺冠。
DeBERTa从两方面改进了BERT预训练的方法:
图片来源:参考文献[6]
使用这两种技术,新的预训练语言模型DeBERTa在许多下游NLP任务上的表现都优于RoBERTa和BERT。DeBERTa这项工作展示了探索自注意的词表征解耦以及使用任务特定解码器改进预训练语言模型的潜力。
本文针对BERT系列部分典型模型进行梳理,希望为大家梳理出在BERT提出后,整体的优化脉络。同时基于BERT的优化方向可以总结为如下:
首先,大量的研究者通过对 BERT 的两个预训练目标进行改进提升模型对文本特征的学习能力,如:ERNIE、RoBERTa、DeBERTa等。对于预训练目标的优化改进是最常见同时也是效果最好的改造方式,所以本文在前面介绍中,也主要梳理了该方向的主要模型。
其次,针对特定领域的显性知识,研究者提出在预训练模型中融合外部知识的方法,进一步丰富了模型所学习的文本特征,如用于专利文本的 PatentBERT:。
这两种路线提升了模型的特征学习能力,但是并没有对预训练模型内部结构进行实质性的改进。
部分研究者从 Transformer 神经网络出发,对其内部结构进行了改进,从而扩展了模型的应用场景,如:BART。
最后,针对 BERT 模型参数量过大导致普通的硬件设备无法有效训练和加载的问题,大量的研究者提出模型压缩的方法,进而提升了 BERT 模型的易用性,如:ALBERT。
[1] bert: https://arxiv.org/pdf/1810.04805.pdf
[2] transformer: https://arxiv.org/pdf/1706.03762.pdf
[3] ernie: https://arxiv.org/pdf/1904.09223.pdf
[4] roberta: https://arxiv.org/pdf/1907.11692.pdf
[5] deberta: https://arxiv.org/pdf/2006.03654.pdf
BERT模型优化改进路线总结:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。