当前位置:   article > 正文

一步一步理解大模型:多头注意力机制的作用_多头自注意力机制的作用

多头自注意力机制的作用

多头注意力机制(Multi-Head Attention)是Transformer架构中的核心组件,它在自然语言处理、图像识别等领域取得了显著的成果。多头注意力机制通过将输入数据划分为多个“头”,使模型能够并行捕捉输入数据中的不同特征和模式。

这是一段MHA的代码:

  1. # Define a multi-head attention class
  2. class MultiHeadAttention(nn.Module):
  3. def __init__(self, d_model, d_k, d_v, n_head, dropout=0.1):
  4. super(MultiHeadAttention, self).__init__()
  5. self.n_head = n_head
  6. self.d_k = d_k
  7. self.d_v = d_v
  8. self.w_qs = nn.Linear(d_model, n_head * d_k)
  9. self.w_ks = nn.Linear(d_model, n_head * d_k)
  10. self.w_vs = nn.Linear(d_model, n_head * d_v)
  11. self.fc = nn.Linear(n_head * d_v, d_model)
  12. self.attention = ScaledDotProductAttention()
  13. self.dropout = nn.Dropout(dropout)
  14. def forward(self, q, k, v, attn_mask=None):
  15. d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
  16. sz_b, len_q, _ = q.size()
  17. sz_b, l
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/907010
推荐阅读
相关标签
  

闽ICP备14008679号