深入理解深度学习——BERT（Bidirectional Encoder Representations from Transformers）：模型总结与注意事项_embedding regression models for context specific d

作者：繁依Fanyi0 | 2024-05-30 08:20:41

踩

embedding regression models for context specific description and inference

2018年涌现出了很多优秀的预训练语言模型，ELMo和GPT都为自然语言处理领域带来了不一样的惊喜，但最具影响力或可以被称为自然语言处理领域中里程碑式的模型，非BERT莫属。以往，在自然语言处理领域，由于任务要求各不相同，往往使用适用于该领域甚至适用于特定任务的特定模型，才能达到最好的性能效果。模型之间的结构也五花八门，存在较大差异。BERT的出现，打破了自然语言处理领域各任务的模型混战的局面，使用预训练加微调训练这样的二段式，BERT在各个领域都能很轻松地达到，甚至超越SOTA性能。至此，预训练语言模型初露峥嵘，在自然语言处理领域正式登场。对个人使用而言，无论是收集BERT训练所需的语料，还是准备训练BERT所需的算力资源，都是极为困难的。预训练语言模型的提出，是为了提供一个未经雕琢的通用模型，以便读者将其应用在各自的任务中。因此，了解BERT的各种细节并不是为了从头训练一个BERT，而是为了更好地使用BERT。下面给出使用BERT的几个注意事项：

输入句子不宜过长（超过250个词），以句子或小段落为佳，规避BERT在长文本领域的缺陷。
需要依赖社会学经验的任务不宜使用BERT，而只通过分析句子的语义信息就可以解决的任务适合用BERT。
避免生成式任务，BERT的结构并不支持生成式任务（GPT最擅长生成式任务）。
涉及句子间语义联系判断的任务适合用BERT。
需要对输入文本进行深层语义理解的任务适合用BERT。
将单句输入改成句对输入的任务最适合用BERT（BERT训练语料以句对的形式为主）

参考文献：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理：基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程：Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding：原理解析与应用实战[M]. 机械工业出版社, 2021.

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/646074