赞
踩
自注意力相比较于注意力来说,其优势是能够削减对外部特征信息的依赖,更善于捕捉信息层之间的动态依赖关系,在较长距离的时序信息学习过程中实现并行运算,使隐藏层之间的联系更加紧密,通过权重系数的分配来强调重要信息的传递效果。自注意力机制模型经常采用QKV模式,其中,Q代表信息、K代表键、V代表值,通过缩放点积来计算Q和K二者的近似相关性,然后再通过softmax函数归一化处理,再与V相乘得出自注意力值A,自注意力机制的计算过程如下所示。
式中,I代表输入的特征矩阵,W代表不同的权重矩阵,Dk 代表输入向量的维度。自注意力机制能够针对输入数据的各个组成部分给出不同的权重,对当前任务更为关键的信息予以更充分的重视,从而降低其他无关部分的影响。
class Attention_Layer(nn.Module):
def
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。