Mamba线性时间序列框架超越Transformer模型？注意力机制如何翻身_manba模型

作者：从前慢现在也慢 | 2024-06-09 14:38:47

踩

manba模型

最近一个火爆AI圈的一个线性时间序列模型框架Mamba引起了大家的讨论，由于其性能在相关的实验上超越了transformer模型，让人不禁讨论注意力机制是否是大模型唯一的出路。transformer模型与mamba模型的大战也是一触即发，很多小伙伴们已经开始尝试把项目转移到mamba框架上。且mamba的开源代码已经上传到GitHub上，小伙伴们可以运行代码尝试。

目前几乎所有的大语言模型都是基于transformer模型框架。许多二次时间序列架构（例如线性注意力、门控卷积和循环模型以及结构化状态空间模型（SSM））已被开发来解决 Transformers 在长序列上的计算效率低下问题，但它们在重要模态上的表现并不好。

Mamba 是一种新的状态空间模型架构，在语言建模等信息密集数据上显示出良好的性能，而以前的二次模型在 Transformers 方面存在不足。Mamba基于结构化状态空间模型的，并使用FlashAttention进行高效的硬件设计和实现。

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】