BERT简单解读_bert 正负样本

作者：凡人多烦事01 | 2024-04-01 19:09:45

踩

bert 正负样本

BERT的原论文为：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT是Google公司在2018年提出的基于深层Transformer的预训练语言模型。BERT不仅充分利用了大规模无标注文本来挖掘其中丰富的语义信息，同时还进一步加深了NLP模型的深度。

1. 整体结构

BERT的基本模型结构由多层Transformer构成，包含两个预训练任务：掩码语言模型（MLM）和下一个句子预测（NSP）。如下图所示：

模型输入：[CLS] + Masked Sentence A + [SEP] + Masked Sentence B + [SEP]

MLM对输入形式没有特别要求，而NSP要求模型的输入是两段文本，因此BERT在预训练阶段的输入形式统一为上述形式。

2. 输入表示

BERT的输入表示由词向量、块向量、位置向量之和组成。

为了计算方便，在BERT中，这三种向量维度均为 $e$ ，大小为 $\cdot e$ （N表示序列最大长度）。

接下来计算这三种向量的计算方法

2.1 词向量

与传统神经网络相似，BERT中的词向量同样通过词向量矩阵将输入文本转换成实值向量表示。具体地，假设输入序列 $x$ 对应的one-hot向量为 $e^t \in \mathbb{R}^{N\times|V|}$ ，其对应的词向量表示为 $v_t$ ：
$v^t=e^tW^t$
式中， $W^t \in \mathbb{R}^{|V|\times e}$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/349877?site