赞
踩
BERT的原论文为:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT是Google公司在2018年提出的基于深层Transformer的预训练语言模型。BERT不仅充分利用了大规模无标注文本来挖掘其中丰富的语义信息,同时还进一步加深了NLP模型的深度。
BERT的基本模型结构由多层Transformer构成,包含两个预训练任务:掩码语言模型(MLM)和下一个句子预测(NSP)。如下图所示:
模型输入:[CLS] + Masked Sentence A + [SEP] + Masked Sentence B + [SEP]
MLM对输入形式没有特别要求,而NSP要求模型的输入是两段文本,因此BERT在预训练阶段的输入形式统一为上述形式。
BERT的输入表示由词向量、块向量、位置向量之和组成。
为了计算方便,在BERT中,这三种向量维度均为 e e e,大小为 N ⋅ e N \cdot e N⋅e(N表示序列最大长度)。
接下来计算这三种向量的计算方法
与传统神经网络相似,BERT中的词向量同样通过词向量矩阵将输入文本转换成实值向量表示。具体地,假设输入序列 x x x对应的one-hot向量为 e t ∈ R N × ∣ V ∣ e^t \in \mathbb{R}^{N\times|V|} et∈RN×∣V∣,其对应的词向量表示为 v t v_t vt:
v t = e t W t v^t=e^tW^t vt=etWt
式中, W t ∈ R ∣ V ∣ × e W^t \in \mathbb{R}^{|V|\times e} Wt∈R∣
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。