赞
踩
论文地址:BERT
BERT,全称Bidirectional Encoder Representation from Transformers,是2018年10月由Google AI研究院提出的一种预训练模型。
BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且在11种不同NLP测试中创出SOTA表现。包括将GLUE基准推高至80.4% (绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进5.6%)。成为NLP发展史上的里程碑式的模型成就。
如下图最左所示,BERT采用了Transformer Encoder block进行连接,是一个双向编码模型
从BERT架构图中可以看到,宏观上BERT分三个主要模块:
Embedding模块:BERT中的该模块是由三种Embedding共同组成而成,如下图
预微调模块:
对于不同的任务,微调都集中在预微调模块,BERT论文中几种重要的NLP微调任务架构图展示如下
从上图中可以发现,在面对特定任务时,只需要对预微调层进行微调,就可以利用Transformer强大的注意力机制来模拟很多下游任务,并得到SOTA的结果。
(句子对关系判断,单文本主题分类,问答任务(QA),单句贴标签(NER))
若干可选的超参数建议如下:
Batch size: 16, 32
Learning rate (Adam): 5e-5, 3e-5, 2e-5
Epochs: 3, 4
BERT包含两个预训练任务:
任务一:Masked LM (带mask的语言模型训练)
任务二:Next Sentence Prediction (下一句话预测任务)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。