【Transformer】cross attention 交叉注意力机制_transformer中的cross attention

作者：小舞很执着 | 2024-07-20 05:05:05

踩

transformer中的cross attention

一、cross attention和self-attention的不同

Cross attention和self-attention是在自然语言处理中常用的两种注意力机制。

Self-attention是一种自我关注机制，用于计算输入序列中每个元素与其他元素的关联程度。具体来说，对于给定的输入序列，self-attention机制将每个元素与序列中的所有元素计算关联度，并根据关联度对序列中的每个元素进行加权求和。这种机制使模型能够捕捉到输入序列中不同元素之间的关系，从而更好地理解输入的上下文信息。

而Cross attention是在两个不同的输入序列之间计算关联度和加权求和的机制。具体来说，给定两个输入序列，cross attention机制将一个序列中的每个元素与另一个序列中的所有元素计算关联度，并根据关联度对两个序列中的每个元素进行加权求和。这样的机制使模型能够建立不同序列之间的关联关系，并将两个序列的信息融合起来。

因此，self-attention和cross attention的主要区别在于计算关联度和加权求和的对象不同。self-attention用于单一输入序列，用于捕捉序列内元素之间的关系；而cross attention用于两个不同输入序列之间，用于建立不同序列之间的关联关系。

二、代码实现

这个代码实现了一个简单的交叉注意力模块，它接受两个输入x1和x2，并计算它们之间的交叉注意力。在forward方法中，我们首先通过线性变换将输入进行映射，然后计算注意力权重

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小舞很执着/article/detail/855277