LLM 推理优化探微 (3) ：如何有效控制 KV 缓存的内存占用，优化推理速度？_model tells you what to discard: adaptive kv cache

作者：盐析白兔 | 2024-05-31 13:00:32

踩

model tells you what to discard: adaptive kv cache compression for llms

编者按： 随着 LLM 赋能越来越多需要实时决策和响应的应用场景，以及用户体验不佳、成本过高、资源受限等问题的出现，大模型高效推理已成为一个重要的研究课题。为此，Baihai IDP 推出 Pierre Lienhart 的系列文章，从多个维度全面剖析 Transformer 大语言模型的推理过程，以期帮助读者对这个技术难点建立系统的理解，并在实践中做出正确的模型服务部署决策。

本文是该系列文章的第三篇，作者的观点是：多头注意力（MHA）模型的 KV 缓存确实会消耗大量 GPU 内存，并且很容易增长到比模型权重还大的规模， KV 缓存大小的控制对于优化大模型的推理至关重要。

本文主要内容如下：(1) KV缓存随序列长度线性增长，容易超过模型本身的规模，严重制约最大序列长度； (2) 减小KV缓存对GPU内存的占用，是优化推理速度和吞吐量的关键； (3) MQA、GQA等新型注意力机制、FastGen等缓存压缩策略，以及PagedAttention等内存管理机制，都是能够有效缓解 KV 缓存内存占用压力的技术手段。

在下一篇文章中，我们将探讨可能影响模型延迟和吞吐量的各种瓶颈。到时见！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/652461

推荐阅读

相关标签