黑曼巴精神不死！Mamba 2 出世，性能狂飙8倍_mamba-2-hybrid

作者：小舞很执着 | 2024-08-12 17:48:30

踩

mamba-2-hybrid

年前，Mamba 被 ICLR 拒稿的消息曾引起轩然大波。然而，Mamba作者在6月初又发布了 Mamba 2 架构，这次，Mamba-2 顺利地拿下 ICML。就连 Nvidia 都被吸引，都用它重新训练了GPT3模型。

在这里插入图片描述

Transformer vs Mamba vs Mamba2 : 比较和概述

Transformer、Mamba和Mamba2都是用于自然语言处理（NLP）任务的大型语言模型（LLM）架构。它们各有优缺点，适用于不同的应用场景。

Transformer

Transformer是目前最流行的LLM架构之一，于2017年提出。它是一种基于编码器-解码器架构的深度学习模型，使用注意力机制来学习输入和输出序列之间的依赖关系。Transformer在各种NLP任务中都取得了最先进的结果，但其计算复杂度较高，在处理长序列数据时效率较低。

Mamba

Mamba是一种基于状态空间模型（SSM）的LLM架构，于2023年提出。它旨在克服Transformer架构在处理长序列数据时的效率低下的问题。Mamba通过使用选择性状态空间和线性时间序列建模来实现更高的效率。

Mamba2

Mamba2是Mamba的改进版本，于2024年提出。它在Mamba的基础上进行了改进，进一步提高了性能和效率。Mamba2使用状态空间对偶性（SSD）框架来设计其核心层，该框架允许对注意力机制进行高效的并行化。

基于 Mamba 的语言模型实证研究

像 Mamba 这样的选择性状态空间模型（SSM）克服了 Transformers 的一些缺点，例如随序列长度变化的二次计算复杂性，以及键值缓存对推理时内存的巨大需求。此外，最近的研究表明，SSM 可以与 Transformers 的语言建模能力相媲美，甚至超过 Transformers，因此成为一种有吸引力的替代方案。不过，在受控环境下（如相同数据），迄今为止的研究仅介绍了将 SSM 与 Transformers 进行比较的小规模实验。为了了解这些架构在更大规模上的优缺点，我们直接比较了在相同数据集（多达 3.5T 标记）上训练的 8B 参数 Mamba、Mamba-2 和 Transformer 模型。我们还将这些模型与由 43% Mamba-2、7% attention 和 50% MLP 层组成的混合架构（Mamba-2-Hybrid）进行了比较。通过使用一组不同的任务，我们回答了 Mamba 模型能否在更大的训练预算下与 Transformers 匹配的问题。我们的结果表明，虽然纯 SSM 在许多任务上都能与 Transformers 相匹敌甚至更胜一筹，但在需要很强的复制或上下文学习能力（如 5 次 MMLU、电话簿）或长上下文推理的任务上，它们却落后于 Transformers。相比之下，我们发现 8B Mamba-2-Hybrid 在我们评估的所有 12 项标准任务中的表现都超过了 8B Transformer（平均超过 2.65 分），而且在推理时生成标记的速度预计可提高 8 倍。为了验证长语境能力，我们提供了更多实验，对 Mamba-2-Hybrid 和 Transformer 的变体进行评估，以支持 16K、32K 和 128K 序列。在另外 23 个长上下文任务中，混合模型的平均性能仍然接近或超过 Transformer。为了便于进一步研究，我们发布了检查点以及用于训练模型的代码，作为英伟达 Megatron-LM 项目的一部分。

比较

在 1.1T 词库上训练的 8B 参数模型的估值结果。纯 SSM 模型（Mamba
和 Mamba-2）在许多自然语言任务上都能与 Transformers 相媲美甚至更胜一筹，但在其他任务上
(例如，MMLU）

在这里插入图片描述

模型

在这里插入图片描述

论文

详细查看An Empirical Study of Mamba-based Language Models

感谢

感谢大家花时间阅读我的文章，你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容，请多多关注我的动态！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小舞很执着/article/detail/970845