当前位置:   article > 正文

自注意力、残差自注意力、多头注意力的代码+原理_残差自注意力 csra

残差自注意力 csra

1 自注意力机制

1.1原理

自注意力相比较于注意力来说,其优势是能够削减对外部特征信息的依赖,更善于捕捉信息层之间的动态依赖关系,在较长距离的时序信息学习过程中实现并行运算,使隐藏层之间的联系更加紧密,通过权重系数的分配来强调重要信息的传递效果。自注意力机制模型经常采用QKV模式,其中,Q代表信息、K代表键、V代表值,通过缩放点积来计算Q和K二者的近似相关性,然后再通过softmax函数归一化处理,再与V相乘得出自注意力值A,自注意力机制的计算过程如下所示。
在这里插入图片描述
式中,I代表输入的特征矩阵,W代表不同的权重矩阵,Dk 代表输入向量的维度。自注意力机制能够针对输入数据的各个组成部分给出不同的权重,对当前任务更为关键的信息予以更充分的重视,从而降低其他无关部分的影响。

1.2 代码

class Attention_Layer(nn.Module):
    
    def
  • 1
  • 2
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/347902
推荐阅读
相关标签
  

闽ICP备14008679号