搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
ClickOnce 部署中的服务器配置问题_oneclick无法与服务器建立安全连接
2
2023华为OD 面试手撕代码真题【求岛屿的个数】_华为od手撕代码题
3
在大数据浪潮下如何高效的获取跨境电商销售数据(以亚马逊为例)
4
实现随机函数 php,用php写随机函数的例子
5
Visual Studio 2022安装与编译简单c语言以及C#语言(番外)_visual studio2022安装教程c语言和c#
6
SpringMVC源码解析(二):请求执行流程
7
安全组授权对象设置_安全组掩码
8
FL Studio 24.1.1.4234破解版水果软件2024最新Crack安装包及补丁包_fl studio crack
9
python使用 tkinter + you-get 实现视频下载器以及 pyinstaller 打包时的问题_用tkinter写出you-get下载器界面
10
[python多版本管理] pyenv-win 详细安装和使用
当前位置:
article
> 正文
读论文:VMamba: Visual State Space Model
作者:我家小花儿 | 2024-08-01 18:02:57
赞
踩
vmamba
(引用)
论文所在期刊:
发布时间:18 Jan 2024
所在级别:
影响因子:
论文下载
代码下载
目录
论文笔记
提出问题
核心思想
网络结构
数据集
训练设置
实验
Baseline
实验结果
传送门
其他笔记
论文笔记
提出问题
注意机制在图像大小方面要求二次复杂度,导致在处理下游密集预测任务(如目标检测、语义分割等)时产生昂贵的计算开销
为了解决第一点的问题,现有的方法是通过限制计算窗口的大小或跨步来提高注意力的效率已经付出了大量的努力,尽管这是以限制接受域的规模为代价的
由于视觉数据的非因果性,直接将vmamba应用于贴片和扁平图像将不可避免地导致受限制的接受野,因为无法估计与未扫描贴片的关系——
引入的交叉扫描模块(CSM)
:该策略确保了特征映射中的每个元素都集成了来自不同方向的所有其他位置的信息,从而在不增加线性计算复杂度的情况下呈现全局接受场
核心思想
2D选择性扫描:尽管S6具有独特的特性,但它会对输入数据进行因果处理,因此只能捕获数据扫描部分内的信息。这自然使S6与涉及时间数据的NLP任务对齐,但在适应非因果数据(如图像、图形、集合等)时会带来重大挑战。尽管图像具有非因果性质,但它们与文本的不同之处在于它们包含2D空间信息(例如局部纹理和全局结构),作者选择通过坚持选择性扫描方法来保留动态权重,不幸的是,这不允许我们遵循并集成卷积运算。
为了解决这个问题,作者提出了交叉扫描模块(CSM),如图2所示。选择将图像块沿着行和列展开为序列(扫描扩展),然后沿四个不同的方向进行沿着扫描:左上至右下、右下至左上、右上至左下和左下至右上。通过这种方式,任何像素(例如图2中的中心像素)都集成了来自不同方向上所有其他像素的信息。然后,将每个序列重塑为单个图像,所有序列合并为一个新的序列,如图3所示(扫描合并)。
网络结构
整体架构
VMamba通过使用茎模块将输入图像划分为补丁开始该过程,类似于ViTs,但没有进一步将补丁平坦化为1-D序列。这种修改保留了图像的2D结构,从而产生了尺寸为H/4 × W/4 × C1的特征图。
然后在特征图上堆叠几个VSS块,保持相同的维度,构成“阶段1”。
VMamba中的分层表示是通过补丁合并操作在“阶段1”中对特征图进行下采样来构建的。随后,涉及更多的VSS块,产生输出分辨率为H/8 × W/8,并形成“阶段2”。重复此过程以分别创建分辨率为H/16 × W/16和H/32 × W/32的“阶段3”和“阶段4”。
所有这些阶段共同构建了类似于流行的CNN模型和一些ViT的分层表示。由此产生的架构可以作为一个通用的替代其他视觉模型在实际应用中具有类似的要求。
VSS模块:VSS块的结构如图4(b)所示。
输入经历初始线性嵌入层,输出分成两个信息流。
一个流通过一个3 × 3的深度方向卷积层,然后是一个Silu激活函数,然后进入核心SS2D模块。
SS2D的输出经过层规范化层,然后添加到其他信息流的输出中,该信息流已经过Silu激活。这种组合产生VSS块的最终输出。
Vmamba的三种规模
数据集
ImageNet-1K
MSCOCO 2017
训练设置
基于ImageNet-1 K的图像分类
VMamba-T/S/B从头开始训练300个epoch(前20个epoch预热),使用1024的批量大小。训练过程采用AdamW优化器,beta设置为(0.9,0.999),动量为0.9,余弦衰减学习率调度器,初始学习率为1 × 10
−3
,权重衰减为0.05。还采用了其他技术,如标签平滑(0.1)和指数移动平均(EMA)。
COCO上的目标检测
训练框架建立在mmdetection库上,并且我们使用Mask-RCNN检测器坚持Swin中的超参数。具体来说,我们使用AdamW优化器,并对12和36个epoch的预训练分类模型(在ImageNet-1 K上)进行微调。对于VMamba-T/S/B,丢弃路径速率分别设置为0.2%/0.2%/0.2%2。学习率初始化为1 × 10
−4
,在第9和第11个历元时降低10倍。我们实现了多尺度训练和随机翻转,批量大小为16。
基于ADE20K的语义分割
在预训练模型的基础上构建一个UperHead。使用AdamW优化器,我们将学习率设置为6 × 10
−5
。微调过程总共跨越160k次迭代,批处理大小为16。默认输入分辨率为512×512,我们还提供了使用640 × 640输入和多尺度(MS)测试的实验结果。
实验
Baseline
ResNet
ConvNeXt
Swin
DeiT
实验结果
基于ImageNet-1 K的图像分类
COCO上的目标检测
基于ADE20K的语义分割
传送门
其他笔记
本文内容由网友自发贡献,转载请注明出处:
【wpsshop博客】
推荐阅读
article
为
Visual
Studio
配置
Git
源代码管理工具_
visual
studio2022
有...
使用
Visual
Studio
可以配合
Git
工具做版本管理。也可以直接将工程同步到
Git
Hub 上。配置过程非...
赞
踩
article
Visual Studio 2022 C++ 生成
dll
或
so
文件在
windows
或
linux
下用C...
8、点击小铅笔,部署模式改为【独立:这样
linux
系统不需要安装dotnet运行环境,我们打包的时候就带了进去,占用磁盘...
赞
踩
article
Visual
Studio2022
编译器实用
调试
技巧_
vs2022
调试
...
这是Grace Hopper在1947年在Markll机器运行程序时发现的第一个程序"bug",被贴在她的本子上了。它真...
赞
踩
article
你是真的“C”——
Visual
Studio
2022
(
VS
2022
)
编译器
-—实用
调试
技巧_vs...
详解
Visual
Studio
2022
(
VS
2022
)
编译器
-—实用
调试
技巧 _
vs
2022
怎么
调试
vs
2022
怎...
赞
踩
article
Visual
Studio
开发动态
库
,静态
库
_
visual
studio
编写.
so
文件格式
...
什么是程序
库
?
库
是写好的现有的,成熟的,可以复用的代码。现实中每个程序都要依赖很多基础的底层
库
,不可能每个人的代码都从零...
赞
踩
article
visual
studio
2022
C++
/CLI 调用C# 实践_
visual
studio
20...
1. 创建c# 类库2. 构建自己的类和方法3. 构建自己的c++工程,并把上一步生成的dll放到自己的c++工程下。H...
赞
踩
article
Visual
Studio
2022
安装
与编译简单
c
语言
以及C#
语言
(番外)_
visual
stud...
Visual
Studio
2022
安装
与编译简单
c
语言
以及C#
语言
(番外)_
visual
studio2022
安装
教程...
赞
踩
article
安防
摄像头
如何对接
阿里
云
物联网(
Link
Visual
)?_
阿里
云
视频
监控接入...
Link
Visual
是生活物联网平台针对
视频
产品推出的增值服务,提供
视频
数据上
云
、存储、转发、AI计算等能力。大白话就...
赞
踩
article
【
多
模态
大
模型
paper
阅读笔记-5】
LLaVA
:
Visual
Instruction
Tuning
...
LLaVA
(视觉指令微调)论文精读【
多
模态
大
模型
paper
阅读笔记-5】
LLaVA
:
Visual
Instruction
...
赞
踩
article
vue
项目
初始化
模板
(后台/大屏可视化/webApp)_
vue
-
visual
-
template
...
初始化VUE
项目
的时候我们会用到
vue
-cli脚手架来快速生成
模板
代码。我在
vue
-cli的基础上,结合工作中不同的
项目
...
赞
踩
article
Visual
Studio
Code
安装C#开发工具包并编写ASP.
NET
Core
Web应用_v...
前段时间微软发布了适用于VS
Code
的C#开发工具包(注意目前该包还属于预发布状态但是可以正常使用),因为之前看过网上...
赞
踩
article
Windows
下编译C++
MediaPipe
_
bazel
couldn
't
find
a vali...
MediaPipe
是一款由 Google Research 开发并开源的多媒体机器学习模型应用框架。
MediaPipe
...
赞
踩
article
C#
系列-手把手教你
安装
Visual
Studio
配置
C#
开发
环境
,创建第一个
C#
程序_vs
安装
c...
在命令行工具中输入csc hello.cs,回车(此步骤需要电脑有csc 命令
环境
)命令行工具输入hello 或 hel...
赞
踩
article
protobuf
安装
使用
入门详细介绍新手教程(
Windows
,
Visual
Studio
2019...
protobuf
是一个跨平台和跨语言的数据结构存储和传输的便利工具。比如
C++
实现了算法,需要用Python或者C#去调...
赞
踩
article
【
Qt
】
Visual
Studio
中
打开
Qt
工程中的.
ui
文件闪退_vs
打开
ui
文件闪退...
Visual
Studio
中双击
打开
Qt
工程中的.
ui
文件闪退。_vs
打开
ui
文件闪退vs
打开
ui
文件闪退 ...
赞
踩
article
论文阅读:
VMamba
: Visual
State
Space
Model
_
visual
mamba...
卷积神经网络(CNNs)和ViTs是视觉表示学习的两个最受欢迎的基础模型。尽管CNNs在图像分辨率方面表现出显著的可扩展...
赞
踩
article
论文精读:
VMamba
Visual
State
Space
Model
_localmamba: v...
Institution: 中国科学院大学(UCAS), 华为, 鹏城实验室Summary: CNNs和ViTs是视觉特征...
赞
踩
article
VMamba
:
Visual
State
Space
Model
论文笔记_
vmamba
-t...
VMamba
论文阅读笔记,不包含实验部分_
vmamba
-t
vmamba
-t ...
赞
踩
article
有限
状态机
(
Finite
State
Machine
,简称
FSM
)...
首先,需要定义
状态机
的所有可能状态。这些状态通常用枚举类型来表示,以便于代码的可读性和维护性。} state_t;接下来...
赞
踩
article
【
决策
状态机
FSM(
finite
state
machine
)梳理】_
有限
状态机
决策
...
对Junior: The Stanford Entry in the Urban Challenge
有限
状态机
的分析_有...
赞
踩
相关标签
Git
visual studio
github
c++
windows
c#
dll
so
linux
ide
c语言
开发语言
阿里云
物联网
云计算
笔记
AIGC
深度学习
计算机视觉
embedding
prompt
langchain