当前位置:   article > 正文

第一篇Mamba综述来了!

mamba相关工作

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和扩散模型】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

71e8ce83364639de27024c6c36924598.jpeg

f1e13531a7bc9bae5599f91459d0201f.png

状态空间模型——用来替代Transformer的新生网络:综述

在CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!

作者单位:安徽大学、哈尔滨工业大学、北京大学

论文:https://arxiv.org/abs/2404.09516

https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List

8413a48fafd3a2314f6deb61a4a5fc48.png    

引言

在本文中,我们首先初步介绍了状态空间模型(SSM)的工作原理。然后,我们将从多个方面回顾SSM的相关工作,包括SSM的起源和变化、自然语言处理、计算机视觉、图、多模态处理、多模态和多媒体、点云/事件流数据、时间序列数据等领域的相关工作。更重要的是,我们在多个下游任务中进行了广泛的实验,以验证SSM的有效性。下游的任务包括单/多标签分类、视觉目标跟踪、像素级分割、图像到文本的生成和人/车辆的重识别。我们还提出了SSM的在理论和应用上的一些可能的研究方向。最后,我们对本文作出了总结。我们真诚地希望这篇综述能更好地促进国家空间模型甚至人工智能的发展。

7ccbd929b00a40812eca0e2b31d4ae61.png

SSM的工作原理

状态空间模型(SSM)来源于经典的卡尔曼滤波器,如图1所示。它将一维输入信号U (t)映射到N-D的潜在状态X (t),然后投影到一维输出信号y (t)中。一般的计算过程可以在如下等式中定义:

f6f3730d8f916be24119290606783d72.png

公式中,X (t)∈Rn,y (t)∈Rq,U (t)∈Rp表示状态向量、输出向量和输入(或控制)向量。fccc136bbe1458a6d43a7744cfb261f1.jpeg、B(t)∈Rn×p、C(t)∈Rq×n和D (t)∈Rq×p表示状态矩阵、输入矩阵、输出矩阵和前馈矩阵。当系统模型中没有直接馈通时,D (t)是一个零矩阵,因此,我们得到以下简化公式:   

ed1d377c005ef0f0827c650b52f0068f.png

由于原始系统矩阵是连续的,我们需要先进行离散化以面向计算机的处理,

如图2所示。对于Mamba体系结构,采用零阶保持(ZOH)进行离散化,我们有:

d0e2e8ac72e29e8bf400616f6350721b.png

083c935dbc908a9cada983ab4c2d5653.png

式中,b9684436b6560aa335068e71e193a98e.jpeg= exp(∆A)、78ac6afb389f276ceab500688e55fc38.jpeg=(∆A)−1(exp(∆A)−I)·∆B,∆表示步长。如果我们用h和x表示状态向量和输入向量,我们得到以下与递归神经网络(RNN)模型计算过程相似的函数:

6ff38f67679d72a06278feae9bf626fb.png

然而,与RNN模型类似,我们面临着计算不能并行化的困境。通过简单地扩展上述公式,我们可以得到:   

7375da18a1248cd84ebad19065fead12.png

很容易发现,最后一项和倒数第二项的乘数总是Cad9cf3ab2e3842f8f6fec0f8ae4eef57.jpeg0a5d644467a2f6f49b5602de7b4795c1e.jpeg和C74101755110030a96927286c118df6d4.jpeg16e895e4b4603780a454e3804d67b3418.jpeg。因此,我们可以将这些因子看作是卷积核51a03de0e15844610296ad36d200553b.jpeg=Cd7fe09e721c006fba287127c9c670280.jpeg·(75ac00906bf3483a3ef15026de69db04.jpeg0,1,2,...,dd6bf11d22ccde1d7972468a3aae4e5e.jpegL),这里,L是给定输入序列的长度。我们可以重写公式(4)为以下卷积公式:

f9abd464a75c1683b527268e8302ae1c.png

目前,我们得到了完整的SSM模型,可以实现训练的并行性,并适用于推理的线性复杂度的循环形式。在Transformer体系结构中,上下文信息存储在相似度矩阵中,但是SSM没有类似的模块,这使得它在上下文学习中表现较差。

为了解决这个问题,Gu等人提出了Mamba的体系结构,它从以下两个方面改进了SSM:1).选择性扫描操作允许模型过滤出相关的信息。在实际实现中,∆、B、C成为输入的函数,而矩阵A保持不变。2).硬件感知算法,允许通过并行扫描、内核融合和重新计算来有效地存储(中间)结果。图1的右侧提供了Mamba块的结构说明。由于其关键特性,许多研究人员试图使用SSM或Mamba架构来设计他们的模型。

SSM的相关工作

在CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!

31218c4ae75e33ca7a1e42a0e68ff76b.png

54d43b276acbd0ae423b6ed56ed63887.png

1) 起源与变化(Origin and Variation of SSM):

f7ce68913ea35f199fd2f00f507868a5.png

84037628c6cfec7a6ebd2986808a86fe.png

82ad6fdd52f7b0ef5231f6a913e05e8d.png

2) 自然语言处理(Natural Language Processing):

  • 语言建模(language modeling)

  • 深度噪声抑制(deep noise suppression)

  • 临床笔记理解(clinical note understanding)

3)计算机视觉(Computer Vision)

  • 分类(classification)

  • 检测(detection)

  • 分割(segmentation)

  • 医学(medical)    

  • 重构(restoration)

  • 生成(generation)

  • 视频理解(video understanding)

  • 跟踪(track)

  • 其它(other)

82c194817614ce2858b1afb4c6942124.png

4)图(Graph)

223472dc7ac5973b805f097d5f467a2d.png

5)多模态和多媒体(Multi-modal and Multi-media)

3e5cc7c976b0489348e009ea01b9fe14.png

6)时间流/点云数据(Event Stream/Point Cloud Data)

d092ae818976d5ddfd59266a2aaaec49.png

7)时间序列数据(Time Series Data)

8)其它(Others)

  • 连续序列预测(continuous sequence prediction)

  • 数字音频制作(digital audio production)

  • 世界模型(world model)

  • 混合专家(mixture-of-experts (MoE))

  • 自预训练(Self pretraining)

相关实验

74fca8614e1a5d697b32864c10be32cf.png

1)单/多标签分类(Single-/Multi-label Classification)

463a7f82c02ee27973812974cb2ec270.png

2)视觉目标跟踪(Visual Object Tracking)  

a59ec3fee41c7b3d0dc9d9d6b27b637b.png

fc19127532969751d471cc8cda5ba51e.png

3)文本到图像的生成(Image-to-Text Generation)

907216c308dbf7b3eacbbb82d179d93f.png

4)行人/车辆重识别(Person/Vehicle Re-Identification)    

4a8b86ea8f0df812eebdf54e1e16448a.png

挑战和机遇

  • 目前的SSM模型的性能仍然逊于主流的Transformer网络;

  • SSM在GPU使用中的优势值得进一步探索和研究;

  • 进一步探索SSM在高分辨率或长期视觉数据方面的优势,是一个值得关注和研究的方向;

  • 使用SSM架构进行预先训练的大型模型;

  • 使用SSM架构的多模态学习;

  • 开发新的SSM扫描操作;

  • SSM的泛化性能仍值得关注,并值得进一步的研究和改进;

  • 使用最新的SSM模型来增强现有的深度神经网络模型。

在CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba和扩散模型交流群成立

 
 
  1. 扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
  2. 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
  1. ▲扫码或加微信号: CVer5555,进交流群
  2. CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
  3. ▲扫码加入星球学习
 
 
  1. ▲点击上方卡片,关注CVer公众号
  2. 整理不易,请点赞和在看
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/565513
推荐阅读
相关标签
  

闽ICP备14008679号