赞
踩
目录
Properties of Selection Mechanisms - 选择机制的性质
论文:Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Foundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated convolution and recurrent models, and structured state space models (SSMs) have been developed to address Transformers' computational inefficiency on long sequences, but they have not performed as well as attention on important modalities such as language.
基础模型(Foundation models)指在大量数据上预训练后,能够适用于多种下游任务的大型深度学习模型。目前,这些模型大多基于Transformer架构及其核心的注意力(Attention)机制,这归功于其能够捕捉序列内长距离依赖关系的能力,对于处理语言、图像、音频等复杂数据非常有效。
然而,Transformer模型面临一个主要的挑战——随着输入序列长度的增加,其计算和存储需求以二次方的速度增长,这限制了模型处理长序列数据的能力。为了解决这个问题,研究者们开发了各种子二次时间(subquadratic-time)的架构,如线性注意力(Linear Attention)、门控卷积(Gated Convolution)、循环模型(Recurrent Models)和结构化状态空间模型(Structured State Space Models, SSMs)。这些架构旨在减少模型对长序列的计算需求,提高效率。
尽管这些子二次时间架构在计算效率上对Transformer架构进行了优化,但在处理语言等重要模态时,它们的表现并没有达到基于注意力机制的模型那样的水平。这表明,尽管减少了计算需求,但这些架构可能在捕捉长距离依赖、理解复杂序列结构等方面仍存在局限,未能充分发挥类似于传统Transformer模型的性能优势。(即设计更高效的模型时,既要考虑计算效率,也要确保模型的表现力不受损失,能够有效处理复杂的数据模态。)
有限窗口的限制:Transformer模型通过自注意力机制(Self-Attention)连接序列中的每个元素,这允许模型在给定的上下文或“窗口”内进行复杂的数据建模。然而,这种机制通常只能捕捉到固定大小上下文窗口内的关系,即模型只能考虑和处理一个有限长度的序列。因此,Transformer在其设定的注意力窗口之外的信息是无法建模的,这限制了其处理超出固定窗口长度序列的能力。(不能建模超过预设窗口长度外的数据)
与窗口长度成二次方缩放的计算复杂度:在自注意力机制中,需要计算序列中每个元素对于所有其他元素的注意力分数。如果序列长度是
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。