Bert基础(一)--自注意力机制_bert 里 transformer 那部分

作者：繁依Fanyi0 | 2024-07-03 02:08:25

踩

bert 里 transformer 那部分

1、简介

当下最先进的深度学习架构之一，Transformer被广泛应用于自然语言处理领域。它不单替代了以前流行的循环神经网络(recurrent neural network, RNN)和长短期记忆(long short-term memory, LSTM)网络，并且以它为基础衍生出了诸如BERT、GPT-3、T5等知名架构。

本文将带领你深入了解Transformer的实现细节及工作原理。本章首先介绍Transformer的基本概念，然后通过一个文本翻译实例进一步讲解Transformer如何将编码器−解码器架构用于语言翻译任务。我们将通过探讨编码器(encoder)的组成部分了解它的工作原理。之后，我们将深入了解解码器(decoder)的组成部分。最后，我们将整合编码器和解码器，进而理解Transformer的整体工作原理。

2、Transformer简介

循环神经网络和长短期记忆网络已经广泛应用于时序任务，比如文本预测、机器翻译、文章生成等。然而，它们面临的一大问题就是如何记录长期依赖。

为了解决这个问题，一个名为Transformer的新架构应运而生。从那以后，Transformer被应用到多个自然语言处理方向，到目前为止还未有新的架构能够将其替代。可以说，它的出现是自然语言处理领域的突破，并为新的革命性架构（BERT、GPT-3、T5等）打下了理论基础。

Transformer完全依赖于注意力机制，并摒弃了循环。它使用的是一种特殊的注意力机制ÿ

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/781659