赞
踩
状态空间模型是一种动态时域模型,用于描述系统的动态特性和行为,它的优势在于能够提供一个框架,以分析和设计复杂系统的动态响应,其中最具代表性的就是大名鼎鼎的Mamba。
Mamba是一种选择性状态空间模型,在语言建模方面表现出色,甚至可以击败 Transformer。不仅如此,它还可以随上下文长度的增加实现线性扩展,达到五倍推理吞吐量。
受Mamba的启发,不少研究者设计发表了更多状态空间模型以应对Transformer计算效率低(自注意力机制的计算量会随着上下文长度的增加呈平方级增长)等问题,比如中国科学院、华为等推出的VMamba、康奈尔大学研究者设计的MambaByte。
除此之外,结合混合专家模型的MoE-Mamba、应用于医学图像的VM-UNet等也都展现出强大的优势,非常有研究价值。为帮助同学们了解并学习,我整理了12个今年最新的状态空间模型相关的研究成果,模型来源文章以及开源代码也列上了,方便同学们复现。
论文以及开源代码需要的同学看文末
方法:通过引入选择机制,使得模型能够根据输入内容进行选择性的信息传递和遗忘,从而实现了对长序列的高效建模。与传统的注意力机制和循环模型相比,Mamba在多个领域(如语言、音频和基因组学)上取得了最先进的性能。
创新点:
作者引入了选择性SSM(structured state space models)的创新机制,使得模型能够根据当前的输入有选择性地传播或遗忘信息,从而实现了内容相关的推理。
作者设计了一种硬件感知的并行算法,使得选择性SSM在递归模式下能够高效计算,克服了传统SSM在计算效率上的瓶颈。
作者将选择性SSM集成到一个简化的端到端神经网络架构中,该架构不需要注意力机制或多层感知机(MLP)模块,
方法:该模型结合了卷积神经网络(CNNs)和视觉变换器(ViTs)的优点,具有线性复杂度和全局感受野。为了解决方向敏感的问题,论文引入了交叉扫描模块(CSM),将非因果的视觉图像转换为有序的补丁序列。
创新点:
VMamba:提出了一种具有全局感受野和动态权重的视觉状态空间模型,用于视觉表示学习。
2D选择性扫描:提出了一种新颖的视觉基础模型,具有线性复杂度,同时保留了全局感受野和动态权重的优势。这解决了注意机制在处理大规模图像时的计算复杂度问题,并且不会对感受野的尺度施加限制。
S6的非因果处理:提出了一种解决非因果数据(如图像、图形、集合等)的挑战的方法,即通过在两个不同方向(即前向和后向)扫描数据,使它们能够互相补偿各自的感受野,而不增加计算复杂度。
方法:MambaByte是基于最近引入的Mamba架构的简单而高效的字节级语言模型。通过引入选择机制来解决语言建模中的计算效率问题,并且在长序列上表现出更好的性能。
创新点:
MambaByte是一种无需标记的SSM,用于建模长字节序列。与其他字节级模型相比,MambaByte在多个数据集上表现出色,并且与子词Transformer相比具有竞争力的结果,因此是一种有前途的标记化替代方案。
MambaByte通过其循环性质实现了显著快速的文本生成,使字节模型变得实用。
MambaByte的研究结果为未来大型模型中的无标记语言建模提供了可能性。
方法:本文提出了将专家混合(MoE)与Mamba架构相结合的方法,以发掘SSMs在扩展上的潜力。MoE是一种高效的技术,现在已经常用于扩展Transformer,例如最近的Mixtral模型。研究中展示了将这些技术结合的可能方式,并取得了性能改进的结果。
创新点:
首次将Mixture of Experts与Mamba架构相结合,提出了MoE-Mamba方法,展示了这两种技术的结合方式以及性能改进的成果。
在研究中报告了活跃参数的数量(不包括嵌入层和非嵌入层),而不是浮点运算的数量(FLOPs),并解释了为什么这种计算方式更适用于像Mamba这样的硬件感知架构。
方法:本文首次介绍了一种纯SSM(Selective Sequential Modeling)模型用于医学图像分割的方法,并提出了基于VSS(Variational Selective Sequential)块的VM-UNet作为基准模型。通过在VM-UNet中使用VSS块并使用预训练的VMamba-S初始化权重,充分发挥了SSM模型的能力。
创新点:
首次引入了基于纯SSM的模型用于医学图像分割,提出了VM-UNet作为基准模型。
利用VSS块构建了VM-UNet,并使用预训练的VMamba-S模型初始化其权重,以充分发挥SSM模型的能力。
关注下方《学姐带你玩AI》
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。