赞
踩
Mamba 是一种具有类似 RNN 的状态空间模型令牌混合器 (SSM) 的架构,最近被引入以解决注意力机制的二次复杂度,随后应用于视觉任务。然而,与卷积和基于注意力的模型相比,Mamba 在视觉方面的性能往往不足。在本文中,我们深入研究了 Mamba 的本质,在概念上得出结论,Mamba 非常适合具有长序列和自回归特征的任务。对于视觉任务,由于图像分类与任一特征不一致,我们假设 Mamba 对这项任务不是必需的;检测和分割任务也不是自回归的,但它们坚持长序列特征,因此我们认为探索 Mamba 对这些任务的潜力仍然是值得的。为了实证验证我们的假设,我们通过在移除核心令牌混合器 SSM 的同时堆叠 Mamba 块来构建一系列名为 MambaOut 的模型。实验结果有力地支持了我们的假设。具体来说,我们的 MambaOut 模型在 ImageNet 图像分类上超过了所有视觉 Mamba 模型,这表明该任务确实没有必要 Mamba。至于检测和分割,MambaOut 无法与最先进的视觉 Mamba 模型的性能相匹配,展示了 Mamba 对长序列视觉任务的潜力。
Transformer:
类RNN:
Mamba:
曼巴非常适合具有两个关键特征的任务:长序列和自回归
其中:
文中提出两个假设:
令牌混频器是选择性SSM,它定义了四个与输入相关的参数(∆,A, B, C),并将它们转换为():
SSM的序列到序列变换可以表示为:
其中:
类rnn的SSM与因果注意区别:
因为SSM的记忆本质上是有损的,所以它在逻辑上不符合注意力的无损记忆。因此,曼巴不能展示其优势,在处理短序列,一个领域的注意力表现良好与容易。然而,在涉及长序列的场景中,由于其二次复杂度,注意力将会动摇。在这种情况下,曼巴可以明显地突出其效率在合并内存与当前输入,从而管理长序列顺利。因此,曼巴是特别适合处理长序列。
Mamba的限制:只能从以前和当前的时间步访问信息,即为因果模式:
其中:
完全可见模式:每个令牌的输出取决于所有令牌的输入:
其中
注意力在默认情况下是完全可见的模式,但它可以很容易地通过将因果掩码应用于注意力图转变为因果模式。由于其递归特性,类rnn模型本质上以因果模式运行,如曼巴公式(2)所示。由于这一固有特性,类rnn模型无法转换为全可见模式。尽管rnn可以使用双向分支近似于全可见模式,但每个分支仍然单独保持因果模式。因此,由于其循环属性的固有限制,Mamba非常适合需要因果token混合的任务。
曼巴非常适合显示以下特征的任务:
考虑一个通用MLP比率为4的Transformer块;假设其输入令牌长度为L,通道(嵌入)维数为D,则该块的FLOPs可计算为:
由此,我们得到L中二次项与线性项的比值为:
当L > 6D时,L中二次项的计算量超过线性项的计算量。这提供了一个简单的度量来确定任务是否涉及长序列。例如,ViT-S 中有384个通道时,阈值Tsmall = 6 × 384 = 2304, viti - b中有768个通道时,阈值Tbase = 6 × 768 = 4608。
对于ImageNet上的图像分类,典型的输入图像大小为,得到 = 196个令牌,patch大小为。显然,196远远小于Tsmall和Tbase,这表明ImageNet上的图像分类不符合长序列任务的条件。
对于COCO上的对象检测和实例分割,其推理图像大小为800 × 1280,对于ADE20K上的语义分割,其推理图像大小为512 × 2048,假设patch大小为,令牌数量约为4K。由于4K > Tsmall且4K≈Tbase,因此对COCO的检测和对ADE20K的分割都可以看作是长序列任务。
如第 2.1 节所述,如下图(a)所示,完全可见的令牌混合模式允许不受限制的混合范围,而因果模式将当前令牌限制为仅访问来自先前令牌的信息。视觉识别被归类为理解任务,其中模型一次可以下看到整个图像,消除了对令牌混合的限制。对令牌混合施加额外的约束可能会降低模型性能。如图(b) 所示,当因果限制应用于 Vision Transformers (ViT)时,可以观察到性能的显着下降。一般来说,完全可见的模式适用于理解任务,而因果模式更适合自回归任务。这一主张也可以通过观察到 BERT和 ViT(BeiT和 MAE) 比 GPT-1/2和图像 GPT更多地用于理解任务来证实。因此,视觉识别任务不需要因果令牌混合模式。
视觉识别任务引入 Mamba 的必要性的假设,如下所示:
省略
在本文中,在概念上讨论了 Mamba 机制,并得出结论,它非常适合具有长序列和自回归特征的任务。我们根据这些标准分析常见的视觉任务,并认为为 ImageNet 图像分类引入 Mamba 是不必要的,因为它既不满足特征。然而,Mamba 在视觉检测和分割任务中的潜力,这与至少长序列特征一致,值得进一步探索。为了凭经验证实我们的主张,我们开发了 MambaOut 模型,该模型在没有核心令牌混合器 SSM 的情况下使用 Mamba 块。MambaOut 在 ImageNet 上超越了所有视觉 Mamba 模型,但与最先进的视觉 Mamba 模型相比,它表现出显着的性能差距,从而验证了我们的断言。由于计算资源的限制,本文只验证了视觉任务的 Mamba 概念。未来,我们可以进一步探索 Mamba 和 RNN 概念以及 RNN 和 Transformer 对大型语言模型 (LLM) 和大型多模态模型 (LMM) 的集成。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。