机器学习中的自注意力（Self Attention）机制详解_自注意力机制公式

作者：花生_TL007 | 2024-06-12 13:28:51

踩

自注意力机制公式

机器学习中的自注意力（Self Attention）机制详解

2020/6/18更新：

之前写的有点误人子弟，只看了几个代码就把特殊当一般了，还是推荐阅读复旦大学邱锡鹏老师的《神经网络与机器学习》一书中关于注意力机制的解释。
本想把自己论文中关于注意力机制的解释放在这里的，但担心查重出现问题，还是不放了。
笔记：所谓的自注意力机制的“自”指的是一组信息中每个信息和整组信息求注意力，也就是整组信息自己和自己求注意力，可以看作一种动态的全连接层。

旧文：

自注意力公式如下：

$\omega(QK^T)V$

其中 $A t t (Q, K, V)$ 是得到的注意力的值， $Q$ 、 $K$ 、 $V$ 分别是查询向量（Query Vector）矩阵、键向量（Key Vector）矩阵和值向量（Value Vector）矩阵，这三个矩阵中每一行分别代表一个对应的向量。 $Q$ 、 $K$ 、 $V$ 一般通过把输入序列 $X$ 分别乘以三个矩阵 $W^q$ 、 $W^k$ 、 $W^v$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/708264