赞
踩
目录
摘要
一、引言
二、原理
2.1 模型架构
2.2 输入/输出表示
2.3 预训练 BERT
2.3.1 任务一:Masked LM
2.3.1 任务二:Next Sentence Prediction (NSP)
2.4 微调 BERT
三、实验
3.1 GLUE
四、附录
A BERT 的额外细节
A.1 预训练的阐述
A.2 预训练过程
A.3 微调过程
A.4 BERT,ELMO 和 OpenAI GPT 的比较
A.5 在不同任务上的微调
B 实验设置细节
B.1 GLUE 基准实验细节描述
C 额外的消融研究
C.1 训练步数的影响
C.2 不同 Masking 过程的消融
五、ELMO、BERT 与 GPT
六、Tokenization 方法归纳
七、BERT 知识点 Part1
八、BERT 知识点 Part2
论文:https://arxiv.org/abs/1810.04805代码:https://github.com/google-research/bertB 站:BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili推荐:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/907571