赞
踩
编者按: 随着大模型的不断升级和参数量的持续扩大,越来越多人开始重视大模型存在的硬件资源要求高、碳排放量较大等问题。如何在保持模型性能的同时,降低计算成本和资源消耗,成为了业界一个迫切需要解决的问题。
我们今天为大家带来的这篇文章,作者认为 Mistral AI 提出的一系列创新技术方案为解决这一问题提供了新思路。
文章首先介绍了 Mistral AI 在其 7B 和 8x7B 规格的大模型中所采用的三种关键技术:分组查询注意力(GQA)、滑动窗口注意力(SWA)和稀疏混合专家模型(SMoE)。GQA通过将 query 进行分组减少 keys 和 values 的数量,从而降低内存需求;SWA利用注意力层级结构,使模型能够有效处理更长的 token 序列;而SMoE则通过仅激活部分专家网络,降低了生成每个 token 的计算开销。接着,文章对比了 Mistral 7B 与 Llama 2 7B ,以及 Mixtral 8x7B 与 Llama 2 70B 在推理时间、内存占用和回答质量等方面的表现差异,结果显示 Mistral 模型在降低计算资源需求的同时,依然能保持与 Llama 模型相当的性能水平。
作者 | Luís Roque(Founder@ https://zaai.ai/ )、Rafael Guedes
编译 | 岳扬
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。