赞
踩
GQA是2023年发表的一篇paper提出的idea,目前用在了llama2、falcon等LLM上。paper一般都篇幅众多,老规矩,本文总结出最精华的部分:) 原文首发于我的公众号"AI不止算法",文章链接在此
GQA的动机主打的是MQA(multi query attention)会导致quality degradation,我们不希望仅仅是推理快,而且还希望quality可以对标MHA,所以GQA带着这个使命诞生,可以很好的做到这个balance。MQA的动机主要在于key和value的数量是随着头数量成正比,那么尤其在decoder inference的过程中,本身就是一个memory bound的过程,这下更加memory bound了,带宽的压力山大,速度快不起来,所以呢,减少头的数量,减少kv cache的size,达到减小带宽的压力的目的,那么MQA推理速度势必更快。
在19年的时候也有一篇paper提出了一个叫做MQA(multi query attention)的idea,GQA可以看作是MQA和MHA的中间或者一般化形态,当GQA里的Group=1的时候,此时为MHA,当GQA的Group=头的数量的时候,此时为MQA,图片非常直观,我就不废话了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。