当前位置:   article > 正文

Swin Transformer: Hierarchical Vision Transformer using ShiftedWindows_窗口自注意力的缺点

窗口自注意力的缺点

目录

00 学习链接

01 研究背景

02 整体框架

 2.1  Patch merging

 2.2  基于窗口的自注意力机制(W-MSA)

 2.3  基于移动窗口的自注意力机制(SW-MSA)

 2.4  相对位置偏差计算

 03 实验分析

 3.1 分类任务表现

 3.2 目标检测任务表现

 3.3 语义分割任务表现​编辑

 3.4 消融实验

04 总结

文献参考


00 学习链接

论文和实验链接:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows | Papers With Codeicon-default.png?t=M5H6https://paperswithcode.com/paper/swin-transformer-hierarchical-vision

​视频讲解参考:【沈向洋带你读论文】Swin Transformer 马尔奖论文(ICCV 2021最佳论文)_哔哩哔哩_bilibili本期邀请的嘉宾是微软亚研院的首席研究员胡瀚老师。在本期,作者之一的他会和沈老师一同探讨获得了2021年ICCV 2021最佳论文Marr Prize的《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》。值得一提的是,本期拍摄的时候,该奖项还未宣布。论文详情页:https://readpaper.com/https://www.bilibili.com/video/BV1hQ4y1e7js?spm_id_from=333.999.0.0&vd_source=711939c38bbd6809e3d4ec1bb84c88e4

Swin Transformer论文精读【论文精读】_哔哩哔哩_bilibili更多论文见:https://github.com/mli/paper-readinghttps://www.bilibili.com/video/BV13L4y1475U?spm_id_from=333.337.search-card.all.click&vd_source=711939c38bbd6809e3d4ec1bb84c88e412.1 Swin-Transformer网络结构详解_哔哩哔哩_bilibili详细介绍了Swin-Transformer网络的具体结构,包括Patch partition,Windows Multi-head Self-Attention(W-MSA), Shifted Windows Multi-head Self-Attention(SW-MSA), 相对位置偏执(relative position bias)等。https://www.bilibili.com/video/BV1pL4y1v7jC?spm_id_from=333.337.search-card.all.click&vd_source=711939c38bbd6809e3d4ec1bb84c88e4文章作者回复:

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows.-ReadPaper论文阅读平台This paper presents a new vision Transformer, called Swin Transformer, that capably serves as a genehttps://readpaper.com/paper/3138516171

01 研究背景

        由于CNN在图像处理中具有局部性(locality)和平移不变性(Translation equivariance,因此在很多CV领域都表现得很优秀,但随着任务复杂度的提高,CNN在一些任务上达不到很好的效果,引出了VITVision Transformer)[1]。

 VIT:Vision Transformer[2]

CNN

优点:具有归纳偏置和平移不变性,可以轻易的提取到局部特征。

缺点:缺少全局注意力,泛化能力较弱。

VIT(Vision Transformer)

优点:具有全局注意力,能够处理比较复杂的下游任务,泛化能力较强。

缺点:对硬件计算能力要求高,输入的图像块尺寸固定,缺乏灵活性

Swin Transformer

1.继承Vinsion Transformer:网络中没有卷积层(CNN)。

2.能够利用到视觉信号中比较好的性质,层次性局部性平移不变性

3.计算复杂度低,数据流与图片尺寸成线性相关。

 

02 整体框架

整体框架如下:

 2.1 Patch merging

作用:缩小分辨率,调整通道数,减少计算量,类似于CNN中的池化。

 2.2基于窗口的自注意力机制(W-MSA)

 MSA操作:全局的patch做自注意力,其计算复杂度为:

 W-MSA操作:局部的patch做自注意力,其计算复杂度为:

优:减少运算量操作:将全局注意力转换为局部注意力,具有局部性

缺:块与块缺少交流

2.3基于移动窗口的自注意力机制(SW-MSA)

这也是本篇论文的核心创新点:

 

 2.4 相对位置偏差计算

详情参考论文[3]

 03 实验分析

 模型设置:

3.1 分类任务表现

 3.2 目标检测任务表现

 3.3 语义分割任务表现

 3.4 消融实验

04 总结

本文提出了:

1.使用了基于移动窗口的自注意力机制,使得计算复杂度降低。

2.首次证明用Transformer作为骨干网络在语义分割和目标检测上的效果要比CNN好,终结了CNN在视觉的统治地位。

3.将层次性、局部性和平移不变性等先验引入Transformer网络结构设计能帮助在视觉任务中取得更好的性能。

4.由于用了统一的Transformer架构,从而可以结合NLPCV进行融合处理,为多模态做了铺垫。

不足:

1.牺牲了自注意力机制的全局性来节省运算的内存

2.窗口分辨率低,只能在小图片上做处理

文献参考

[1] Naseer, Muhammad Muzammal, et al. “Intriguing properties of vision transformers.” Advances in Neural Information Processing Systems 34 (2021).

[2] Dosovitskiy, Alexey, et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.” International Conference on Learning Representations. 2020.

[3]Hang bo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, YuWang, Jianfeng Gao, Song hao Piao, MingZhou, et al. Unilmv2: Pseudo-masked language models for unified language model pre-training. In International Conference on Machine Learning, pages 642–652. PMLR, 2020.

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号