随机 Transformer

作者：我家自动化 | 2024-02-20 03:25:18

踩

随机 Transformer

在这篇博客中，我们将通过一个端到端的示例来讲解 Transformer 模型中的数学原理。我们的目标是对模型的工作原理有一个良好的理解。为了使内容易于理解，我们会进行大量简化。我们将减少模型的维度，以便我们可以手动推理模型的计算过程。例如，我们将使用 4 维的嵌入向量代替原始的 512 维嵌入向量。这样做可以更容易手动推理数学计算过程！我们将使用随机的向量和矩阵初始化，但如果你想一起动手试一试的话，你也可以使用自己的值。

如你所见，这些数学原理并不复杂。复杂性来自于步骤的数量和参数的数量。我建议你在阅读本博文之前阅读 (或一起对照阅读)图解 Transform (The Illustrated Transformer) 这篇博客。这篇博客使用图解非常直观地解释了 Transformer 模型，我不打算再重复解释那里已经解释过的内容。我的目标是解释 Transformer 模型的“how”，而不是“what”。如果你想深入了解，可以查阅著名的原始论文: Attention is all you need 。

预备知识

需要基本的线性代数基础知识——我们主要进行简单的矩阵乘法，所以不需要非常精通。除此之外，对机器学习和深度学习的基本理解也会对理解本文有帮助。

本文内容

通过一个端到端的示例来讲解 Transformer 模型在推理过程中的数学原理
解释注意力机制
解释残差连接和层归一化
提供一些代码来扩展模型！

言归正传，让我们开始吧！原始的 Transformer 模型由编码器和解码器两部分组成。我们的目标是将使用 Transform 模型制作一个翻译器！我们首先将重点放在编码器部分。

编码器

编码器的目标是生成输入文本的丰富嵌入表示。这个嵌入将捕捉输入的语义信息，并传递给解码器生成输出文本。编码器由 N 层堆叠而成。在我们深入了解这些层之前，我们需要了解如何将单词 (或 token ) 传递给模型。

说明
嵌入 (Embeddings) 是一个有点过度使用的术语。我们首先创建一个文本的嵌入，它将作为编码器的输入。编码器还会输出一个嵌入 (有时也称为隐藏状态)。解码器也会接收一个嵌入！
声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/118157