赞
踩
结构:两个BiLSTM
1.考虑上下文信息,每个词都给出三个embedding:word embedding、1st LSTM layer embedding、2nd LSTM layer embedding,针对不同的上下文信息给三个embedding赋予不同的权重。
2.利用长文本而不是窗口学习embedding
3.用character CNN构建词表示
双向+只用到了transformer的encoder部分+词表示
Pre-training model +fine-tuning(针对具体task微调)
BERT——集大成者
1.根据上下文预测——word2vec
2.bi-directional双向结构——ELMO
3.使用transformer——GPT(open ai)
CLS:classification token
SEP:special token 区分两个句子
token embeddings
segment embeddings:为每一个token加上一个learned embedding 来识别这个token属于句子A还是B
position embeddings:token的位置
mask 15%的token,分三种情况:
其中80%,用[mask]替换,对mask进行预测,预测错误再重新进行训练优化
其中10%,用另一个词替换
其中10%,该词保持不变
模型预测masked tokens
50%:选择实际的下一个句子
50%:选择随机句子
loss_bert=loss_mlm+loss_nsp
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。