赞
踩
两个预训练任务
MLM(Masked Language Model)
从待预测序列中随机选择15%的位置用于预测任务
NSP (Next Sentence Prediction)
可以理解为一个topic分类+一个segment连贯性预测任务
Whole Word Masking 全词mask
分词
- 使用 bytes 而不是 unicode 字符作为 sub-word 的基本单位,因此可以编码任何输入文本而不会引入 UNKOWN 标记。 - 当采用 bytes-level 的 BPE 之后,词表大小从3万(原始 BERT 的 char-level )增加到5万。这分别为 BERT-base和 BERT-large增加了1500万和2000万额外的参数。这种统一编码的优势会超过性能的轻微下降。且作者在未来工作中将进一步对比不同的encoding方案。
- 1
- 2
embedding 层做参数分解
参数规模 对比bert-base 降低18倍
Transformer-XL :《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》
SimBERT模型的损失函数包括两部分,
第一块是构建Seq2Seq任务,也就是通过输入文本去预测对应相似文本;
第二块是构建语义相似度任务,会根据文本对应的CLS向量来计算相似度。
https://zhuanlan.zhihu.com/p/355552495
RoFormer: Enhanced Transformer with Rotary Position Embedding
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。