faster rcnn预训练模型_BERT：深度双向预训练语言模型

作者：寸_铁 | 2024-07-24 22:25:24

踩

fastrcnn bart 语言模型

论文标题：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
论文链接：https://arxiv.org/abs/1810.04805

一、概述

简介

BERT(Bidirectional Encoder Representations from Transformers)通过预训练来学习无标注数据中的深度双向表示，预训练结束后通过添加一个额外的输出层进行微调，最终在多个NLP任务上实现了SOTA。

预训练语言模型在实践中证明对提高很多自然语言处理任务有效，其中包括句子层级的任务，比如自然语言推断(natural language inference)和复述(paraphrasing)，还有token层级的任务，比如命名实体识别(named entity recognition)和问答(question answering)。

预训练模型使用方法

在下游任务中应用预训练语言模型表示的方法有两种：feature-based的方法和fine-tuning的方法。举例来说，ELMo这种预训练语言模型使用feature-based的方法，通过将ELMo的预训练的表示作为额外的特征输入到特定于任务的模型中去；GPT使用fine-tuning的方法，通过引入少量的特定于任务的参数，在下游任务中训练时所有的预训练参数。

语言模型的单向与双向

截止BERT之前的预训练语言模型都是单向的(unidirectional)，包括GPT和ELMo，这样的方法对句子层级的任务不是最优的，而且对于token层级的任务比如问答非常有害。BERT使用masked language model(MLM)的方法来预训练，这种方法能够训练一个双向的(directional)语言模型。除了masked language model的预训练的方法，BERT还使用了next sentence prediction的预训练方法。

BERT的贡献

BERT证明了双向预训练的重要性；
BERT减少了对精心设计的特定于下游任务中的架构的依赖；
BERT在11个下游任务上达到了SOTA。

二、BERT

BERT的使用分为两个阶段：预训练(pre-training)和微调(fine-tuning)。预训练阶段模型通过两种不同的预训练任务来训练无标注数据。微调阶段模型使用预训练参数初始化，然后使用下游任务(downstream task)的标注数据来微调参数。

BERT的一个显著特点是它在不同的任务上有统一的架构，使用时只需要在BERT后面接上下游任务的结构即可使用。

模型架构

BERT的模型架构是一个多层双向的Transformer的encoder。我们标记模型的层数(每一层是一个Tranformer的block)为，模型的hidden size为，self-attention head的数量为。两个比较通用的

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/876999