当前位置:   article > 正文

transformer模型_宅家NLP(三) —— 从Transformer到BERT模型

transformer通俗笔记:从word2vec、seq2seq逐步理解到gpt、bert

6c3f719fdb9279791d557e7f308812b8.png

感谢@贪心科技 @葛瀚骋老师的讲解;附上NLP系列第三场《从Transformer到BERT模型》笔记整理;本篇文章仅在于记录课程内容略加入自己的理解与扩充。

btw 如果您觉得文章对您有帮助,可以在文末戳赞同表示支持~后面的课程也会分享笔记给大家~(因为我发现前两篇文章的收藏数是点赞数的十几倍。。emmm,据说收藏不点赞的都是耍流氓 [狗头保命]

一、Background

一词多义(polysemous words)在自然语言理解中是一个难解决的问题;

例如:bank(银行、河堤);apple( 、MacBook);...

二、Review

  1. ELMo (Embeddings from Language Models)
宅家NLP —— 词向量与ELMo​zhuanlan.zhihu.com
8bd846c9250c22ce8ae40ae0131df997.png

2. Transformer

宅家NLP (二) —— Self-Attention与Transformer​zhuanlan.zhihu.com
81be3db14fb00e852cffdcc33fd90d25.png

三、 BERT —— Bidirectional Encoder Representation from Transformers

论文地址:https://arxiv.org/pdf/1810.04805.pdf

  1. BERT的输入

BERT的输入由三部分组成:token embeddings & position embeddings & segment embeddings (segment embedding是比transformer的输入多出的一部分,用0和1来表示token属于哪个句子,在下游任务中发挥作用)

0674544f3b8668058b8486cf9482ba95.png
BERT的输入

2. Two operations

在大量语料上pre-training;在下游任务上fine-tuning

3. Two tasks in pre-training

  • task 1: Masked Language Model (MLM)

在训练过程中,随机mask掉15%的token,这其中80%的token用[MASK]替换,10%随即用其他token替换,另外10%保持不变;

原因分析可参考:

1174b4f8837c9af5aef06a642ebd7fa2.png
MLM
  • task2 :Next Sentence Prediction (NSP)

用于判断一句话是否是另一句话的下一句(next sentence),这一预训练任务在需要关注两个句子的任务,如文本蕴含中会发挥有效作用;

3014c77136cbe9268974d8977ca38911.png
NSP

因此,BERT在预训练时的loss function由以下两部分组成:

Loss_BERT = Loss_MLM + Loss_NSP (实质上是multi-task的原理)

4. parameters

BERT-Base: 12-layer, 768-hidden, 12-heads, 110M parameters

BERT-Large: 24-layer, 1024-hidden, 16-heads, 340M parameters

5. 从Word2Vec到BERT

c9bc70ed2fea473064a885b3f4ca0abd.png
站在巨人的肩膀上

6. BERT的局部信息和全局信息可视化

(全局的图看的太专注漏截了:(,可以参考上一篇文章中transformer的8个head学习到的信息的可视化图例:)

局部信息:

a5db8428d91ed9b64becbb6f1a753a8f.png
同一layer中各个head学习到的表示

结论:同一个layer(局部)的所有12个head学到的信息差不多,全局上12个head学到的信息有很大的不同,使得bert对多义词的表示、对句法语义的理解更深入;

7. BERT —— what it learns?

abb251499be0a82938deb2c97852d9a8.png
纵坐标表示不同的下游任务,横坐标表示layer,蓝色直方图表示不同layer的信息对结果的影响

结论:不同的任务下,不同的layer发挥的作用不同;

因此在实践中,可以尝试将bert每层的输出都取出来,求和或者算平均等;

8. BERT的应用

分类、问答、命名实体识别、聊天机器人、机器阅读理解等;

四、模型压缩

由于BERT模型参数量很大,在很多实际应用场景中受到计算资源等的限制无法高效的应用,因此出现了模型压缩方面的研究。(在下在蒸馏方面也有一些研究,后续会整理一些代码和工作分享出来;

方法:剪枝、量化、蒸馏

00298b6e744289edf852b4ab31015431.png

蒸馏方面的两个重要工作:

distillbert:

Distilling Task-Specific Knowledge from BERT into Simple Neural Networks​arxiv.org

tinybert:

https://arxiv.org/abs/1909.10351​arxiv.org

五、提问环节

为什么分类只用[CLS] token就可以了?

因为深层的双向transformer结构使得[CLS] token已经包含了句子中的所有token的信息,事实上句子中每个token包含的信息都差不多;

(别问为什么只有一个提问,问就是困了...

btw 如果您觉得文章对您有帮助,可以在文末戳赞同表示支持~后面的课程也会分享笔记给大家~(据说收藏不点赞的都是耍流氓 [狗头保命]

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/652672
推荐阅读
相关标签
  

闽ICP备14008679号