赞
踩
论文:https://arxiv.org/abs/2401.09417
机构:华中科技大学&北京市人工智能研究院
近年来,具有高效硬件感知设计的状态空间模型(ssm),即Mamba深度学习模型,在长序列建模方面显示出巨大的潜力。同时,纯粹在ssm上构建高效和通用的视觉骨干是一个吸引人的方向。然而,由于视觉数据的位置敏感性和视觉理解对全局上下文的需求,表示视觉数据对ssm来说是具有挑战性的。本文表明,对视觉表示学习的自注意力的依赖是不必要的,并提出了一种新的双向Mamba块(Vim)的通用视觉骨干,用位置嵌入标记图像序列,用双向状态空间模型压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中,与DeiT等公认的视觉transformer相比,Vim实现了更高的性能,同时也显示出显著提高的计算和内存效率。例如,Vim比DeiT快2.8倍,在对分辨率为1248×1248的图像进行批量推理提取特征时,Vim节省了86.8%的GPU内存。结果表明,Vim能够克服对高分辨率图像进行transformer式理解时的计算和内存限制,具有成为下一代视觉基础模型骨干的巨大潜力。
近年来,状态空间模型(state space model, SSM)的研究进展引起了人们的极大兴趣。 现代ssm起源于经典的卡尔曼滤波模型,
一些基于ssm的方法:
2- d数据:
最近的工作Mamba[Mamba: Linear-Time Sequence Modeling with Selective State Spaces]将时变参数纳入SSM,并提出了一种硬件感知算法,以实现非常有效的训练和推理。
地位:Mamba优越的扩展性能表明,它是语言建模中很有前途的Transformer替代品。 然而,一个通用的基于纯ssm的骨干网络还没有被探索用于处理视觉数据,如图像和视频。
受Mamba在语言建模方面的成功的激励,我们也可以将这种成功从语言转移到视觉,即用先进的SSM方法设计一个通用和有效的视觉骨干。
Mamba的挑战:
解决方案:本文提出视觉Mamba (Vim)模型,包括用于数据依赖的全局视觉上下文建模的双向ssm和用于位置感知视觉识别的位置嵌入。
优势:Vim可以在大规模无监督视觉数据上进行预训练,以获得更好的视觉表示。得益于Mamba较好的效率,Vim可以以较低的计算代价实现大规模的预训练。
地位:
视觉通用架构的发展:
Transformer的挑战:二次复杂度,视觉标记的数量有限。
本文从Mamba中获得灵感,探索在不使用注意力的情况下建立一个基于纯ssm的模型作为通用视觉骨干,同时保留了ViT的顺序、模态无关的建模优点。
这段讨论指出,虽然之前的工作要么将SSM应用于特定的视觉应用,要么通过结合SSM与卷积或注意力机制构建混合架构,但与之不同的是,作者构建了一个纯粹基于SSM的模型,旨在作为一个通用的视觉 backbone。这表示Vision Mamba(Vim)模型旨在不依赖于传统注意力机制的情况下,通过利用SSM的优势,提供一个能够高效处理图像和视频中长距离依赖关系的强大工具,这在视觉任务中是非常重要的。
视觉曼巴(Vision Mamba, Vim)的目标是将高级状态空间模型(advanced state space model, SSM),即将曼巴引入计算机视觉。
状态空间模型:SSM是一种将一维函数或序列 通过隐藏状态映射到的系统。连续系统利用微分方程表示如下:
其中:
S4 和 Mamba 是连续系统的离散版本,其中包括一个时间尺度参数 Δ 将连续参数 A、B 转换为离散参数、。常用的变换方法是零阶保持 (ZOH),定义如下:
对 A、B进行离散化之后的公式(1)可写成:
最后,模型通过全局卷积从状态空间模型(SSM)中计算输出:
其中:
Vim概述如图:
标准的Mamba是为一维序列设计的。为了处理视觉任务,我们首先将二维图像转换为平坦的二维块。其中(H, W)为输入图像的大小、C为通道数、P为图像补丁的大小、J为补丁数;接下来,我们将线性投影到大小为D的向量中,并添加位置嵌入:
其中:
然后,我们将令牌序列 发送到 Vim 编码器的第 l 层,得到输出 。最后,我们对输出类标记 进行归一化并将其馈送到多层感知器 (MLP) 头以获得最终预测 ,如下所示:
其中:
在本节中,我们介绍Vim模块,它包含了视觉任务的双向序列建模。Vim模块如下图所示。
具体算法:
具体来说:
详细解释:
架构图的详细解释:
架构的超参数如下:
遵循ViT和DeiT,首先采用16x16核大小的投影层来获得一个1-D的非重叠块嵌入序列。随后,我们直接堆叠L个Vim块。默认情况下,我们将块数设置为24,SSM维度N设置为16。为了与DeiT系列的模型尺寸一致,我们将微型变体的隐藏状态维度D设置为192,扩展状态维度E设置为384。对于小尺寸版本,我们设置D为384和E为768。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。