当前位置:   article > 正文

BERT简单解读_bert 正负样本

bert 正负样本

BERT的原论文为:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT是Google公司在2018年提出的基于深层Transformer的预训练语言模型。BERT不仅充分利用了大规模无标注文本来挖掘其中丰富的语义信息,同时还进一步加深了NLP模型的深度。

1. 整体结构

BERT的基本模型结构由多层Transformer构成,包含两个预训练任务:掩码语言模型(MLM)和下一个句子预测(NSP)。如下图所示:

模型输入:[CLS] + Masked Sentence A + [SEP] + Masked Sentence B + [SEP]

MLM对输入形式没有特别要求,而NSP要求模型的输入是两段文本,因此BERT在预训练阶段的输入形式统一为上述形式。

2. 输入表示

BERT的输入表示由词向量、块向量、位置向量之和组成。

为了计算方便,在BERT中,这三种向量维度均为 e e e,大小为 N ⋅ e N \cdot e Ne(N表示序列最大长度)。

接下来计算这三种向量的计算方法

2.1 词向量

与传统神经网络相似,BERT中的词向量同样通过词向量矩阵将输入文本转换成实值向量表示。具体地,假设输入序列 x x x对应的one-hot向量为 e t ∈ R N × ∣ V ∣ e^t \in \mathbb{R}^{N\times|V|} etRN×V,其对应的词向量表示为 v t v_t vt
v t = e t W t v^t=e^tW^t vt=etWt
式中, W t ∈ R ∣ V ∣ × e W^t \in \mathbb{R}^{|V|\times e} WtR

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/349877?site
推荐阅读
相关标签
  

闽ICP备14008679号