当前位置:   article > 正文

开源Mamba-2性能狂飙8倍!多个Mamba超强进化体拿下顶会_mamba2

mamba2

MambaOut的热度刚过去没多久,Mamba-2就带着它狂飙8倍的性能炸场了。

Mamba-2的核心层是对Mamba的选择性SSM的改进,同等性能下,模型更小,消耗更低,速度更快。与Mamba不同,新一代的Mamba-2再战顶会,这次顺利拿下ICML。

其实除了Mamba-2以外,还有很多关于Mamba的改进方案也被各大顶会收录,比如视觉Mamba中稿ICML 2024,SegMamba和Swin-UMamba均中稿MICCAI 2024。而且现在关于Mamba的各种研究一直在爆发性地增长,已经成了顶会的热门投稿方向。

这次我从Mamba众多改进方案中挑选了12个最新研究成果来分享,这些成果的代码都已开源,我也一并附上了,方便各位快速了解Mamba改进的前沿进展并复现。

论文原文以及开源代码需要的同学看文末

Mamba®: Vision Mamba ALSO Needs Registers

方法:本文探讨了Vision Mamba特征图中的伪影与Vision Transformers的区别,并引入了一种名为Mamba®的新型架构,通过策略性地插入寄存器来增强图像处理能力,实验证明Mamba®在准确性和可扩展性方面表现优越,为未来优化Mamba架构在视觉领域的研究提供了坚实的基础。

创新点:

  • 引入了一种改进的Mamba ® 架构,通过在令牌序列中插入一些新的、与输入无关的寄存器令牌,对Vision Mamba进行简单而有效的架构改进。与先前的方法不同,该方法不仅在输入层的一端附加几个寄存器令牌,而且在Vision Mamba的末尾,将寄存器令牌连接起来,形成用于最终预测的综合图像表示。

  • 在Vision Mamba中引入了寄存器令牌,以解决特征图中的伪影问题。通过在令牌序列中更密集地分布寄存器令牌,该方法能够更好地解决更普遍的伪影问题,从而增强图像处理能力。

SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model

方法:本文介绍了一种自监督音频Mamba(SSAMBA)模型,它利用状态空间模型(SSMs)和双向架构的优势进行音频表示学习,相比传统的基于Transformer的模型,SSAMBA提供了一种更高效、可扩展的替代方案。

创新点:

  • 提出了SSAMBA,这是第一个自我监督、无注意力、基于SSM(state space models)的音频表示学习模型。SSAMBA采用双向Mamba对音频进行编码和处理,并且在没有标签数据的情况下进行预训练。

  • 相比于传统的基于transformer的模型,SSAMBA采用了更高效且可扩展的Mamba架构,避免了二次复杂性。SSAMBA在资源受限的设备上表现出色,具有广泛的实际应用潜力,从移动和边缘设备到大规模云系统。

PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis

方法:本文介绍了一种名为PoinTramba的新型混合框架,将Transformer的强大建模能力与Mamba的计算效率相结合,用于增强点云分析。通过将点云分段成组,Transformer捕捉到组内复杂的依赖关系并生成组嵌入,而Mamba则同时捕捉到组间关系,确保了全面的分析。

创新点:

  • PoinTramba是一种创新的混合框架,将Transformer的强大建模能力与Mamba的高效计算能力相结合,用于点云分析。通过融合这两种架构,PoinTramba在计算复杂度和分析性能之间实现了卓越的平衡,标志着领域中的一个重大进展。

  • 引入了一种新的双向重要性感知排序策略(BIO),以处理随机点云排序的负面影响。该策略根据计算得到的重要性分数重新排序组嵌入,从而显著提高了Mamba的性能,并优化了整体分析过程。

Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning

方法:MambaDM是一种用于离线强化学习的行动序列预测器,它通过一个创新的全局-局部融合Mamba(GLoMa)模块,有效地结合了全局和局部特征的多尺度序列建模,以捕捉强化学习数据集中的复杂相互关系,并在Atari和OpenAI Gym基准测试中实现了最先进的性能。

创新点:

  • 全局-局部融合(GLoMa):创新性地设计了GLoMa模块,用于同时捕捉局部和全局特征,以更好地理解强化学习轨迹内的内在相关性。

  • 数据集规模的缩放法则:与自然语言处理(NLP)领域不同,实验结果表明,在Atari和OpenAI Gym环境中,增加模型大小并不一定提高结果。但是,为MambaDM提供更大的数据集可以显著提高性能。

  • 依赖信息的捕捉能力:通过可视化分析Mamba核心转换矩阵的特征值变化,展示了Mamba模块捕捉依赖信息的能力。

关注下方《学姐带你玩AI》

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/885620
推荐阅读
相关标签