当前位置:   article > 正文

学习笔记(三)__BERT_mlm loss

mlm loss

EMLO(embeddings from language models)

结构:两个BiLSTM
1.考虑上下文信息,每个词都给出三个embedding:word embedding、1st LSTM layer embedding、2nd LSTM layer embedding,针对不同的上下文信息给三个embedding赋予不同的权重。
2.利用长文本而不是窗口学习embedding
3.用character CNN构建词表示

BERT(bidirectional encoder representation from transformers)_google 2018

双向+只用到了transformer的encoder部分+词表示
Pre-training model +fine-tuning(针对具体task微调)
BERT——集大成者
1.根据上下文预测——word2vec
2.bi-directional双向结构——ELMO
3.使用transformer——GPT(open ai)
在这里插入图片描述CLS:classification token
SEP:special token 区分两个句子
token embeddings
segment embeddings:为每一个token加上一个learned embedding 来识别这个token属于句子A还是B
position embeddings:token的位置

pre-training

MLM(masked language model)_完形填空

mask 15%的token,分三种情况:
其中80%,用[mask]替换,对mask进行预测,预测错误再重新进行训练优化
其中10%,用另一个词替换
其中10%,该词保持不变
模型预测masked tokens

loss只计算masked tokens,其他位置的tokens不计算
NSP(next sentence prediction)

50%:选择实际的下一个句子
50%:选择随机句子
loss_bert=loss_mlm+loss_nsp

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/360030
推荐阅读
相关标签
  

闽ICP备14008679号