Bert基础(五)--Bert基本原理_bert 入门

作者：喵喵爱编程 | 2024-08-06 13:53:52

踩

bert 入门

我们将开始了解流行且先进的文本嵌入模型BERT。由于在许多自然语言处理任务上的卓越表现，BERT彻底改变了自然语言处理的方法。首先，我们将了解什么是BERT，以及它与其他嵌入模型的区别。然后，我们将详细分析BERT的工作原理和基础配置。接下来，我们将通过两个任务来了解BERT模型是如何进行预训练的。这两个任务分别为掩码语言模型构建和下句预测。然后，我们将分析BERT的预训练过程。最后将讲解几种有趣的子词词元化算法，包括字节对编码、字节级字节对编码和WordPiece。

1、BERT的基本理念

BERT是`Bidirectional Encoder Representations from Transformers``的缩写，意为多Transformer的双向编码器表示法，它是由谷歌发布的先进的嵌入模型。BERT是自然语言处理领域的一个重大突破，它在许多自然语言处理任务中取得了突出的成果，比如问答任务、文本生成、句子分类等。BERT成功的一个主要原因是，它是基于上下文的嵌入模型，这是它与其他流行的嵌入模型的最大不同，比如无上下文的word2vec。

首先，让我们了解有上下文的嵌入模型和无上下文的嵌入模型之间的区别。请看以下两个句子。

句子A：He got bit by Python（他被蟒蛇咬了）
句子B：Python is my favorite programming language（Python是我最喜欢的编程语言）

阅读了上面两个句子后，我们知道单词Python在这两个句子中的含义是不同的。在句子A中，Python是指蟒蛇，而在句子B中，Python是指编程语言。

如果我们用word2vec这样的嵌入模型计

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/937699