当前位置:   article > 正文

注意力机制与Transformer_经过注意力机制之后输出的矩阵是什么

经过注意力机制之后输出的矩阵是什么

注意力机制(Attention)

简介

Attention机制可以描述为将一个query和一组key-value对映射到一个输出,其中query,keys,values和输出均是向量。输出是values的加权求和,其中每个value的权重 通过query与相应key的兼容函数来计算。

Attention机制

计算步骤

那么Query,Key,Value是什么意思呢?它们在Attention的计算中扮演着什么角色呢?先看一下Attention的计算方法,整个过程分成7步:

  1. 如上文,将输入单词转化成嵌入向量;
  2. 根据嵌入向量得到Q,K,V三个向量;
  3. 为每个向量计算一个score=Q*K;
  4. 为了梯度的稳定,Transformer使用了score归一化,即除以√(
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/433731
推荐阅读
相关标签