赞
踩
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
状态空间模型——用来替代Transformer的新生网络:综述
在CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!
作者单位:安徽大学、哈尔滨工业大学、北京大学
论文:https://arxiv.org/abs/2404.09516
https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List
引言
在本文中,我们首先初步介绍了状态空间模型(SSM)的工作原理。然后,我们将从多个方面回顾SSM的相关工作,包括SSM的起源和变化、自然语言处理、计算机视觉、图、多模态处理、多模态和多媒体、点云/事件流数据、时间序列数据等领域的相关工作。更重要的是,我们在多个下游任务中进行了广泛的实验,以验证SSM的有效性。下游的任务包括单/多标签分类、视觉目标跟踪、像素级分割、图像到文本的生成和人/车辆的重识别。我们还提出了SSM的在理论和应用上的一些可能的研究方向。最后,我们对本文作出了总结。我们真诚地希望这篇综述能更好地促进国家空间模型甚至人工智能的发展。
SSM的工作原理
状态空间模型(SSM)来源于经典的卡尔曼滤波器,如图1所示。它将一维输入信号U (t)映射到N-D的潜在状态X (t),然后投影到一维输出信号y (t)中。一般的计算过程可以在如下等式中定义:
公式中,X (t)∈Rn,y (t)∈Rq,U (t)∈Rp表示状态向量、输出向量和输入(或控制)向量。、B(t)∈Rn×p、C(t)∈Rq×n和D (t)∈Rq×p表示状态矩阵、输入矩阵、输出矩阵和前馈矩阵。当系统模型中没有直接馈通时,D (t)是一个零矩阵,因此,我们得到以下简化公式:
由于原始系统矩阵是连续的,我们需要先进行离散化以面向计算机的处理,
如图2所示。对于Mamba体系结构,采用零阶保持(ZOH)进行离散化,我们有:
式中,= exp(∆A)、=(∆A)−1(exp(∆A)−I)·∆B,∆表示步长。如果我们用h和x表示状态向量和输入向量,我们得到以下与递归神经网络(RNN)模型计算过程相似的函数:
然而,与RNN模型类似,我们面临着计算不能并行化的困境。通过简单地扩展上述公式,我们可以得到:
很容易发现,最后一项和倒数第二项的乘数总是C0和C1。因此,我们可以将这些因子看作是卷积核=C·(0,1,2,...,L),这里,L是给定输入序列的长度。我们可以重写公式(4)为以下卷积公式:
目前,我们得到了完整的SSM模型,可以实现训练的并行性,并适用于推理的线性复杂度的循环形式。在Transformer体系结构中,上下文信息存储在相似度矩阵中,但是SSM没有类似的模块,这使得它在上下文学习中表现较差。
为了解决这个问题,Gu等人提出了Mamba的体系结构,它从以下两个方面改进了SSM:1).选择性扫描操作允许模型过滤出相关的信息。在实际实现中,∆、B、C成为输入的函数,而矩阵A保持不变。2).硬件感知算法,允许通过并行扫描、内核融合和重新计算来有效地存储(中间)结果。图1的右侧提供了Mamba块的结构说明。由于其关键特性,许多研究人员试图使用SSM或Mamba架构来设计他们的模型。
SSM的相关工作
在CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!
1) 起源与变化(Origin and Variation of SSM):
2) 自然语言处理(Natural Language Processing):
语言建模(language modeling)
深度噪声抑制(deep noise suppression)
临床笔记理解(clinical note understanding)
3)计算机视觉(Computer Vision)
分类(classification)
检测(detection)
分割(segmentation)
医学(medical)
重构(restoration)
生成(generation)
视频理解(video understanding)
跟踪(track)
其它(other)
4)图(Graph)
5)多模态和多媒体(Multi-modal and Multi-media)
6)时间流/点云数据(Event Stream/Point Cloud Data)
7)时间序列数据(Time Series Data)
8)其它(Others)
连续序列预测(continuous sequence prediction)
数字音频制作(digital audio production)
世界模型(world model)
混合专家(mixture-of-experts (MoE))
自预训练(Self pretraining)
相关实验
1)单/多标签分类(Single-/Multi-label Classification)
2)视觉目标跟踪(Visual Object Tracking)
3)文本到图像的生成(Image-to-Text Generation)
4)行人/车辆重识别(Person/Vehicle Re-Identification)
挑战和机遇
目前的SSM模型的性能仍然逊于主流的Transformer网络;
SSM在GPU使用中的优势值得进一步探索和研究;
进一步探索SSM在高分辨率或长期视觉数据方面的优势,是一个值得关注和研究的方向;
使用SSM架构进行预先训练的大型模型;
使用SSM架构的多模态学习;
开发新的SSM扫描操作;
SSM的泛化性能仍值得关注,并值得进一步的研究和改进;
使用最新的SSM模型来增强现有的深度神经网络模型。
在CVer微信公众号后台回复:Mamba综述,即可下载本文pdf,并加入Mamba微信交流群!
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba和扩散模型交流群成立
- 扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
- 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
- ▲扫码或加微信号: CVer5555,进交流群
- CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
-
- ▲扫码加入星球学习
- ▲点击上方卡片,关注CVer公众号
- 整理不易,请点赞和在看
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。