当前位置:   article > 正文

随机 Transformer

随机 Transformer

在这篇博客中,我们将通过一个端到端的示例来讲解 Transformer 模型中的数学原理。我们的目标是对模型的工作原理有一个良好的理解。为了使内容易于理解,我们会进行大量简化。我们将减少模型的维度,以便我们可以手动推理模型的计算过程。例如,我们将使用 4 维的嵌入向量代替原始的 512 维嵌入向量。这样做可以更容易手动推理数学计算过程!我们将使用随机的向量和矩阵初始化,但如果你想一起动手试一试的话,你也可以使用自己的值。

如你所见,这些数学原理并不复杂。复杂性来自于步骤的数量和参数的数量。我建议你在阅读本博文之前阅读 (或一起对照阅读)图解 Transform (The Illustrated Transformer) 这篇博客。这篇博客使用图解非常直观地解释了 Transformer 模型,我不打算再重复解释那里已经解释过的内容。我的目标是解释 Transformer 模型的“how”,而不是“what”。如果你想深入了解,可以查阅著名的原始论文: Attention is all you need 。

预备知识

需要基本的线性代数基础知识——我们主要进行简单的矩阵乘法,所以不需要非常精通。除此之外,对机器学习和深度学习的基本理解也会对理解本文有帮助。

本文内容

  • 通过一个端到端的示例来讲解 Transformer 模型在推理过程中的数学原理

  • 解释注意力机制

  • 解释残差连接和层归一化

  • 提供一些代码来扩展模型!

言归正传,让我们开始吧!原始的 Transformer 模型由编码器和解码器两部分组成。我们的目标是将使用 Transform 模型制作一个翻译器!我们首先将重点放在编码器部分。

编码器

编码器的目标是生成输入文本的丰富嵌入表示。这个嵌入将捕捉输入的语义信息,并传递给解码器生成输出文本。编码器由 N 层堆叠而成。在我们深入了解这些层之前,我们需要了解如何将单词 (或 token ) 传递给模型。

说明
嵌入 (Embeddings) 是一个有点过度使用的术语。我们首先创建一个文本的嵌入,它将作为编码器的输入。编码器还会输出一个嵌入 (有时也称为隐藏状态)。解码器也会接收一个嵌入!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/118157
推荐阅读
相关标签