当前位置:   article > 正文

Bert原理介绍_bert模型原理

bert模型原理
一.Bert基本原理介绍

背景
  基于语言模型的预训练(pre-training)已经被证明可以有效提升各种 NLP 任务的表现。通常有两种策略可以运用到预训练模型得到的结果上:基于特征(feature-based)和微调(fine-tuning),基于特征的策略使用任务特定的架构,将预训练的表示作为额外的特征,其代表为 ELMo;基于微调的策略使用最少的任务特定参数,通过简单的微调预训练参数来训练下游任务,其代表 OpenAI GPT。

  之前的研究的局限性在于,其在预训练时使用的目标函数均基于单向语言模型,没有同时考虑到双向的上下文信息。BERT 模型旨在解决这一局限性,通过提出一种新的预训练目标:masked language model(MLM)。简单来说,MLM 随机地从输入中遮蔽一些词语,然后训练目标是基于被遮蔽词语的双侧上下文来预测该词语在词典中的 id。此外,BERT 模型还引入了一个 next sentence prediction 任务,来预训练文本对的联合表示。

  下图给出了 BERT、ELMo 和 OpenAI GPT 三者之间的结构比较。只有 BERT 真正同时使用了左右两侧上下文的信息。
在这里插入图片描述

1.1 Bert基本介绍

接下来我们将从what,how,wher等三个方面来介绍bert
Bert是什么呢?(what)
BERT是Pre-training of Deep Bidredirectional Encoder Representations from Transfomers的缩写,其中每一个单词都表示了BERT的特征:
Pre-training说明BERT是一个预训练模型,通过前期的大量语料的无监督训练,为下游任务学习大量的先验的语言、句法、词义等信息。

Bidirectional 说明BERT采用的是双向语言模型的方式,能够更好的融合前后文的知识。

Transformers说明BERT采用Transformers作为特征抽取器。

Deep说明模型很深,base版本有12层,large版本有24层。

总的来说,BERT是一个用Transformers作为特征抽取器的深度双向预训练语言理解模型

BERT的实现原理(how)
在 BERT 中,总共包括两个步骤:预训练和微调。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/255713
推荐阅读
相关标签
  

闽ICP备14008679号