Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释（2）

作者：知新_RL | 2024-04-17 00:02:49

踩

flyfish
Transformer - 注意⼒机制 Scaled Dot-Product Attention 计算过程
 Transformer - 注意⼒机制代码实现
 Transformer - 注意⼒机制 Scaled Dot-Product Attention不同的代码比较
 Transformer - 注意⼒机制代码解释
 Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释（1）
Transformer - 注意⼒机制 Attention 中的 Q, K, V 解释（2）

加权求和
在这里插入图片描述

矩阵乘法
在这里插入图片描述
第一个矩阵横着向量
第二个矩阵列着向量

在这里插入图片描述
17的由来
两个矩阵相乘，在结果矩阵中的一个元素就是加权求和得到的

最后结果是

在注意力机制中就是用矩阵乘法实现的加权求和
$x^Ty =$

(\begin{matrix} x_{1} x_{2} \dots x_{n} \end{matrix})

$\begin{pmatrix} x_1 x_2 \dots x_n \end{pmatrix}$

(\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{n} \end{matrix})

$\begin{pmatrix} y_1\\y_2 \\ \vdots \\ y_n \end{pmatrix}$ = x_1y_1+x_2y_2+\dots+x_ny_n=\sum_{i=1}^n x_i y_i

x^{T} y = (x_{1} x_{2} \dots x_{n}) y_{1} y_{2} ⋮ y_{n} = x_{1} y_{1} + x_{2} y_{2} + \dots + x_{n} y_{n} = i = 1 \sum n x_{i} y_{i}

点积（Dot Product）、数量积、标量积、点乘

点积的名称源自表示点乘运算的点号 $\bullet b)$ ，标量积的叫法则是在强调其运算结果为标量而非向量。
两个向量 $\vec{a}=\left[a_{1}, a_{2}, \cdots, a_{n}\right]$ 和 $\vec{b}=\left[b_{1}, b_{2}, \cdots, b_{n}\right]$ 的点积定义为：

$\vec{a} \cdot \vec{b}=\sum_{i=1}^{n} a_{i} b_{i}=a_{1} b_{1}+a_{2} b_{2}+\cdots+a_{n} b_{n}$

在欧几里得空间中，点积可以直观地定义为

$\vec{a} \cdot \vec{b}=|\vec{a}||\vec{b}| \cos \theta$
$|\vec{x}|$ 表示 $\vec{x}$ 的模（长度）， $\theta$ 表示两个向量之间的角度。
$\cos \theta=\frac{\mathbf{a} \cdot \mathbf{b}}{|\vec{a}||\vec{b}|}$

两个向量夹角余弦值就是两个向量的余弦相似度
两个向量之间的余弦相似性是用 $\theta$ 来衡量的。
在这里插入图片描述

如果 $\theta$ =0°，则x和y向量重叠，从而证明它们相似。
如果 $\theta$ =90°，则x和y向量不同。

加权求和，矩阵乘法，点积都可以实现计算两者相似性
简述是加权求和就是点积，矩阵乘法可以实现点积

一篇文章，文章的标题就是key，文章的内容就是V
使用搜索引擎时，输入到搜索栏中的文本就是 query
输入内容 query 与文章标题 key之间的相似性计算就是评分函数
在注意力机制中例如计算Q和K的点积实际就是计算两者的相似性
这个点积结果经过scale就是评分函数

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/437140