当前位置:   article > 正文

大模型学习-GQA、MQA、MHA_大模型的mqa是什么

大模型的mqa是什么

注意力机制的核心概念在于把不同的重要性赋予输入的不同部分。

MHA(multi-head attention)

MAH由多个平行的自注意力层组成,每个层都可以关注到输入的不同部分。而每个注意力头都有自己的感知域,可以独立学习输入中的不同特性。然后,将所有头的输出拼接后,通过一个liner,得到最终输出。MHA的优势在于能够同时捕获输入数据的多个不同特性。事实上,不同的”头“可以分别专注于词序列的不同方面,语义、语法

MQA(multi-query attention)

MQA是MHA的变体,不同的是MQA让所有的头之间共享同一份Key和Value矩阵,每个头只单独保留一份query参数,从而大大减少了Key和Value矩阵的参数量,以此达到提升推理速度,但是会带来精度的损失。

GQA(group-query attention)

GQA将查询头分成G组,对于query是每个头单独保留一份参数,每个组共享一个key和value矩阵。从 MHA 到 MQA 将 H 键和值头减少到单个键和值头,减少了键值缓存的大小,因此需要加载的数据量 H 倍。但是能够保持多样性,在推理速度和模型精度之间取得了平衡。

https://zhuanlan.zhihu.com/p/683422108

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/936061
推荐阅读
相关标签
  

闽ICP备14008679号