Transformer中的编码器部分一共6个相同的编码器层组成。
每个编码器层都有两个子层，即多头自注意力层（Multi-Head Attention）层和逐位置的前馈神经网络（Position-wise Feed-Forward Network）。在每个子层后面都有残差连接（图中的虚线）和层归一化（LayerNorm）操作，二者合起来称为 Add&Norm 操作。

Encoder（编码器）架构

（2）Decoder 解码器

Transformer中的解码器部分同样有6个相同的解码器层组成。

每个解码器层都有三个子层，掩码自注意力层（Masked Self-Attention）、Encoder-Decoder自注意力层、逐位置的前馈神经网络。同样，在每个子层后面都有残差连接（图中的虚线）和层归一化（LayerNorm）操作，二者合起来称为 Add&Norm操作。

Decoder（解码器）架构

二、Transformer的原理

Transformer工作原理

1. Multi-Head Attention（多头自注意力）

它允许模型同时关注来自不同位置的信息。通过分割原始的输入向量到多个头（head），每个头都能独立地学习不同的注意力权重，从而增强模型对输入序列中的不同部分的关注能力。

Multi-Head Attention（多头自注意力）

（1）输入线性变换

对于输入的Query（查询）、Key（键）和Value（值）向量，首先通过线性变换将它们映射到不同的子空间。这些线性变换的参数是模型需要学习的。

（2）分割多头

经过线性变换后，Query、Key和Value向量被分割成多个头。每个头部都会独立地进行注意力计算。

（3）缩放点积注意力

在每个头内部，使用缩放点积注意力来计算Query和Key之间的注意力分数。这个分数决定了在生成输出时，模型应该关注Value向量的部分。

（4）注意力权重应用

将计算出的注意力权重应用于Value向量，得到加权的中间输出。这个过程可以理解为根据注意力权重对输入信息进行筛选和聚焦。

（5）拼接和线性变换

将所有头的加权输出拼接在一起，然后通过一个线性变换得到最终的Multi-Head Attention输出。

2. Scaled Dot-Product Attention（缩放点积注意力）

它是Transformer模型中的多头注意力机制的一个关键组成部分。

Scaled Dot-Product Attention（缩放点积注意力）

（1）Query、Key和Value矩阵

Query矩阵（Q）：表示当前的关注点或信息需求，用于与Key矩阵进行匹配。

Key矩阵（K）：包含输入序列中各个位置的标识信息，用于被Query矩阵查询匹配。

Value矩阵（V）：存储了与Key矩阵相对应的实际值或信息内容，当Query与某个Key匹配时，相应的Value将被用来计算输出。

（2）点积计算

通过计算Query矩阵和Key矩阵之间的点积（即对应元素相乘后求和），来衡量Query与每个Key之间的相似度或匹配程度。

（3）缩放因子

由于点积操作的结果可能非常大，尤其是在输入维度较高的情况下，这可能导致softmax函数在计算注意力权重时进入饱和区。为了避免这个问题，缩放点积注意力引入了一个缩放因子，通常是输入维度的平方根。点积结果除以这个缩放因子，可以使得softmax函数的输入保持在一个合理的范围内。

（4）Softmax函数

将缩放后的点积结果输入到softmax函数中，计算每个Key相对于Query的注意力权重。Softmax函数将原始得分转换为概率分布，使得所有的Key的注意力权重之和为1。

（5）加权求和

使用计算出的注意力权重对Value矩阵进行加权求和，得到最终的输出。这个过程根据注意力权重的大小，将更多的关注放在与Query更匹配的Value上。

三、Transformer架构改进

1. BERT

BERT 是一种基于Transformer的预训练语言模型，它的最大创新之处在于引入了 双向Transformer编码器 ，这使得模型可以同时考虑输入序列的前后上下文信息。

BERT架构

（1）输入层（Embedding）

Token Embeddings：将单词或字词转换为固定维度的向量。

Segment Embeddings：用于区分句子对中的不同句子。

Position Embeddings：由于Transformer模型本身不具备处理序列顺序的能力，所有需要加入位置嵌入来提供序列中单词的位置信息。

（2）编码层（Transformer Encoder）

BERT模型使用双向Transformer编码器进行编码。

（3）输出层（Pre-trained Task-specific Layers）

MLM输出层：用于预测被掩码（masked）的单词。在训练阶段，模型会随机遮盖输入序列中的部分单词，并尝试根据上下文预测这些单词。

NSP输出层：用于判断两个句子是否为连续的句子对。在训练阶段，模型会接收成对的句子作为输入，并尝试预测第二个句子是否是第一个句子的后续句子。

2. GPT

GPT 也是一种基于Transformer的预训练语言模型，它的最大创新之处在于使用了 单向Transformer编码器，这使得模型可以更好地捕捉输入序列的上下文信息。

（1）输入层（Input Embedding）

将输入的单词或符号转换为固定维度的向量表示。

可以包括词嵌入、位置嵌入等，以提供单词的语义信息和位置信息。

（2）编码层（Transformer Encoder）

GPT模型使用单向Transformer编码器进行编码和生成。

（3）输出层（Output Linear and Softmax）

线性输出层将最后一个Transformer Decoder Block的输出转换为词汇表大小的向量。

Softmax函数将输出向量转换为概率分布，以便进行词汇选择或生成下一个单词。

来源：架构师带你玩转AI

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/349791