transformer中的位置编码_transformer位置编码的作用

作者：weixin_40725706 | 2024-06-27 17:07:19

踩

transformer位置编码的作用

背景：

各种transformer都含有一项关键的技术——位置编码（position encoding），它可以提升模型对位置信息的感知能力，弥补了Self Attention机制中位置信息的缺失；

绝对位置编码直接将位置的信息加入到现有的特征中。带有绝对位置编码的Self Attention 计算公式如式1所示：
$(X_i+p_i)^TW_q^TW_k(X_j +p_j)\tag1$
其中 $X_i, X_j$ 表示序列中 $i, j$ 两点的特征向量， $W_q$ 表示 query 矩阵， $W_k$ 表示 key 矩阵， $p_i, p_j$ 表示 $i, j$ 两点的绝对位置编码信息；
将式1展开得：
$X_i^TW_q^TW_kX_j + p_i^TW_q^TW_kX_j + X_i^TW_q^TW_kp_j + p_i^TW_q^TW_kp_j \tag2$
从式2中可以观察到，第1项是与位置无关的信息，第2、3项只与一个位置相关，第4项是与两个位置都相关的信息，目标是使得注意力机制中包含两个位置之间的相对位置信息，也就是让第满足式3：
$p_i^TW_q^TW_kp_j = g(i-j)\tag4$
其中 $g (i - j)$ 是一个只与两者相对位置相关的函数； $W_q^T、W_k$ 是可学习的参数，不妨将问题简化为如何构造函数 $g^\prime(i-j) = p_i^Tp_j$ ,也就是 $g$ 只与相对位置有关，而与 $i 、 j$ 具体的数值无关；由初等数学三角函数可知：
$cos(\theta-\varphi) = \cos \theta \cos \varphi+\sin \theta \sin \varphi\tag5$
不妨令:
$p_i = \binom{cos \theta_i}{sin\theta_i}\\ \ \\p_j = \binom{cos \theta_j}{sin\theta_j}$
就有：
$cos(\theta_i-\theta_j) = (cos \theta_i, \ sin\theta_i)\binom{cos \theta_j}{sin\theta_j}\tag6$
若想让 $cos(\theta_i-\theta_j)$ 只与 $i - j$ 有关，则只需有 $\theta_k=k\theta_0$ ，则有 $cos(\theta_i-\theta_j) = cos[(i-j)\theta_0]\tag7$
所以transformer论文中使用cos与sin函数来对位置编码，是有一定的意义的；
$\begin{aligned} P E_{(p o s, 2 i)} &=\sin \left(p o s / 10000^{2 i / d_{\text {model }}}\right) \\ P E_{(\text {pos }, 2 i+1)} &=\cos \left(p o s / 10000^{2 i / d_{\text {model }}}\right) \end{aligned}$
其中 pos 为序列中（句子）的位置， $d_{model}$ 为位置信息编码的特征向量的长度，i 表示位置信息编码特征向量的第 i 个元素，编码向量中的奇数位用cos来编码，偶数位用sin来编码；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/763149