当前位置:   article > 正文

深度解析新型attention注意力机制Group Query Attention(GQA)为什么能给LLM decoder带来极大推理加速

group query attention

GQA是2023年发表的一篇paper提出的idea,目前用在了llama2、falcon等LLM上。paper一般都篇幅众多,老规矩,本文总结出最精华的部分:) 原文首发于我的公众号"AI不止算法",文章链接在此

动机

GQA的动机主打的是MQA(multi query attention)会导致quality degradation,我们不希望仅仅是推理快,而且还希望quality可以对标MHA,所以GQA带着这个使命诞生,可以很好的做到这个balance。MQA的动机主要在于key和value的数量是随着头数量成正比,那么尤其在decoder inference的过程中,本身就是一个memory bound的过程,这下更加memory bound了,带宽的压力山大,速度快不起来,所以呢,减少头的数量,减少kv cache的size,达到减小带宽的压力的目的,那么MQA推理速度势必更快。

概念

在19年的时候也有一篇paper提出了一个叫做MQA(multi query attention)的idea,GQA可以看作是MQA和MHA的中间或者一般化形态,当GQA里的Group=1的时候,此时为MHA,当GQA的Group=头的数量的时候,此时为MQA,图片非常直观,我就不废话了

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/439840
推荐阅读
相关标签