赞
踩
BERT用于将一个输入的句子转换为word_embedding,本质上是多个Transformer的Encoder堆叠在一起。
其中单个Transformer Encoder结构如下:
BERT-Base采用了12个Transformer Encoder。
BERT-large采用了24个Transformer Encoder。
原始的句子中包含[CLS] 和 [SEP]两个字符,其中 [SEP]是两个句子间的分隔符,[CLS]则用于做二分类任务,即判断前后两个句子是否相邻。
BERT的输入由三部分组成:
Input = Token Embedding + Segment Embedding + Position Embedding
Token Embedding:将原始句子(包含字符)进行编码
Segment Embedding :第一个句子中每个word彼此编码一致,第二个句子中每个word彼此编码一致,
Position Embedding:位置编码,不同于原始Transformer中的positional encoding的正余弦编码方式,这里采用可学习参数的编码方式。
BERT的训练任务包括:
1和2是同时训练的
由于BERT在预训练时的数据集很多都是无标签的,因此采用无监督学习方式。
常见的无监督模型包括:
AE的缺点:忽略了mask和mask之间的联系
缺点:
将主题预测和连贯性预测合并为一个单项任务。由于主题预测任务比较简单,因此降低了整体任务的难度。
改进方式:
从同一篇文档中抽取两个不连续的段落作为负样本
case1:
case2:
case3:
case4:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。