赞
踩
本文将从单头Attention工作原理、多头Attention工作原理、全连接网络工作原理三个方面,实现一文搞懂Transformer的工作原理。
Transformer工作原理
单头Attention(Single-Head Attention):单头注意力是一种注意力机制,它只求一次注意力。在这个过程中,对同样的查询(Q)、键(K)和值(V)求一次注意力,得到一个输出。这种机制允许模型从不同的表示子空间在不同位置关注信息。
Scaled Dot-Product(缩放点积运算)
Query矩阵(Q):表示当前的关注点或信息需求,用于与Key矩阵进行匹配。
Key矩阵(K):包含输入序列中各个位置的标识信息,用于被Query矩阵查询匹配。
Value矩阵(V):存储了与Key矩阵相对应的实际值或信息内容,当Query与某个Key匹配时,相应的Value将被用来计算输出。
通过计算Query矩阵和Key矩阵之间的点积(即对应元素相乘后求和),来衡量Query与每个Key之间的相似度或匹配程度。
由于点积操作的结果可能非常大,尤其是在输入维度较高的情况下,这可能导致softmax函数在计算注意力权重时进入饱和区。为了避免这个问题,缩放点积注意力引入了一个缩放因子,通常是输入维度的平方根。点积结果除以这个缩放因子,可以使得softmax函数的输入保持在一个合理的范围内。
将缩放后的点积结果输入到softmax函数中,计算每个Key相对于Query的注意力权重。Softmax函数将原始得分转换为概率分布,使得所有Key的注意力权重之和为2。
工作原理:单头Attention通过计算每个token的查询向量与所有token的键向量的点积,并经过softmax归一化得到注意力权重,再将这些权重应用于值向量进行加权求和,从而生成每个token的自注意力输出表示。
对于输入序列中的每个token,我们都有一个对应的查询向量(Query Vector,Q)和键向量(Key Vector,K)。
我们计算每个查询向量与所有键向量的点积。
这个步骤是在所有token之间建立关系,表示每个token对其他token的“关注”程度。
QK向量点积运算
点积的结果需要经过一个softmax函数,确保所有token的注意力权重之和为1。softmax函数将点积结果转换为0到1之间的值,这些值表示了每个token相对于其他所有token的注意力权重。
计算Attention权重
经过softmax处理后的注意力权重构成了一个Attention矩阵。
这个矩阵的每一行对应一个token,每一列也对应一个token,矩阵中的每个元素表示了对应行token对列token的注意力权重。
构成Attention矩阵
使用这个Attention矩阵来加权输入序列中的值向量(Value Vector,V)。
具体来说,对于每个token,我们将其对应的值向量与Attention矩阵中该token所在行的所有权重相乘,并将结果相加。
这个加权求和的结果就是该token经过自注意力机制处理后的输出表示。
加权求和Value向量
上述操作会应用于输入序列中的每个token,从而得到每个token经过自注意力机制处理后的输出表示。
这些输出表示通常会被送到模型的下一个层进行进一步的处理。
应用于每个token
多头Attention(Multi-Head Attention):多头注意力机制通过并行运行多个Self-Attention层并综合其结果,能够同时捕捉输入序列在不同子空间中的信息,从而增强模型的表达能力。
Multi-Head Attention
工作原理:多头Attention将每个头得到向量拼接在一起,最后乘一个线性矩阵,得到Multi-Head Attention的输出。
拼接和线性变换
前馈网络(Feed-Forward Network):Transformer模型中,前馈网络用于将输入的词向量映射到输出的词向量,以提取更丰富的语义信息。前馈网络通常包括几个线性变换和非线性激活函数,以及一个残差连接和一个层归一化操作。
Transformer中的编码器部分一共N个相同的编码器层组成。
每个编码器层都有两个子层,即多头注意力层(Multi-Head Attention)层和前馈神经网络(Feed-Forward Network)。
在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。
Encoder(编码器)架构
Transformer中的解码器部分同样一共N个相同的解码器层组成。
每个解码器层都有三个子层,掩蔽自注意力层(Masked Self-Attention)、Encoder-Decoder注意力层、前馈神经网络(Feed-Forward Network)。
同样,在每个子层后面都有残差连接(图中的虚线)和层归一化(LayerNorm)操作,二者合起来称为Add&Norm操作。
Decoder(解码器)结构
工作原理:Multi-Head Attention的输出,经过残差和norm之后进入一个两层全连接网络。
全连接网络
参考:架构师带你玩转AI
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。