当前位置:   article > 正文

[论文笔记]SwinSUNet: Pure Transformer Network for Remote Sensing Image Change Detection

swinsunet: pure transformer network for remote sensing image change detectio

1 论文标题

标题: SwinSUNet: Pure Transformer Network for Remote Sensing Image Change Detection
作者: Cui Zhang , L i e j u n W a n g , Shuli Cheng , and Y ongming Li
发表地方: IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, VOL. 60, 2022

2 论文的结构

2.1 Abstract

作者想解决什么问题?

  虽然CNN在CD领域取得了巨大的成就,但是它不能有效的捕捉全局信息。

作者通过什么模型来解决这个问题?

  transformer是近年来提出的,它可以有效地提取全局信息,因此被用于解决计算机视觉(CV)任务,并取得了一些成就。在本文中,我们设计了一个采用连体U形结构的纯transformer网络来解决CD问题,并将其命名为SwinSUNet。

作者给出的答案是什么?

  对四个CD数据集进行了实验,在这些实验中,SwinSUNet取得了比其他相关方法更好的结果。

2.2 Introduction

作者使用的理论是基于哪些模型?

  Swin transformer

主要贡献

  提出一种纯transformer的模型用于变化检测,并且SwinSUNet是第一个用于CD任务的纯transformer网络。

2.3 Related work

和作者这篇论文相关的工作有哪些?

  CNN:FC-EF、STANet、DASNet、SNUNet
  tranformer:BIT、CAM(方法)

重要的相关论文

  Z. Liu et al., “Swin transformer: Hierarchical vision transformer using shifted Windows,” 2021, arXiv:2103.14030.

之前工作的优缺点是什么?

  由于卷积操作固有的局部性,基于CNN的方法不能有效地提取长期的全局特征,从而限制了CD网络的能力。与之前的方法不同,本文试图探索纯transformer网络在CD任务中的潜力。

作者主要是对之前的哪个工作进行改进?

  Swin transformer

2.4 METHODOLOGY

模型结构图

在这里插入图片描述

Swin transformer

  窗口transformer,本文将W-MSA和SW-MSA两种划分窗口的方式交替使用。W-MSA:将特征图分为若干个大小为MxM的窗口,仅仅在每个窗口进行self-attention计算,但是这种方法忽略了窗口之间的交流,所以产生出SW-MSA方法。

encoder

  假设输入大小为HxWxC,首先,将图片划分为大小为4x4x3的小patch,然后将每一个小patch转化为1维数据,大小为48,然后使用线性嵌入的方法(本文采用全卷积的方法)将48转换为通道C,所以输出大小为 H/4 x W/4 x C。与Swin transformer一样,我们也使用贴片合并层来完成下采样操作。在每个阶段,特征图的分辨率减半,而维度则增加一倍。操作如图所示:
在这里插入图片描述

Fusion

  Fusion主要用于合并编码器生成的两个特征图,Fusion由一个连接层(连接两个特征图)、一个线性投影层(降低维度)和两个Swin transformer块(有效融合)组成。在此过程中,分辨率保持不变。

Decoder

  每一层包括UM块和若干个Swin transformer块组成,每一次操作,将像素扩大一倍,通道减小一倍。再完成3次后,大小变为H/4 × W/4 x C,最后再通过使用一个线性映射将通道C变为2,生成一个变化图。其中UM模块:由一个上采样块和一个合并块组成。具体操作如图所示:
在这里插入图片描述

patch Reshaping操作:
在这里插入图片描述

2.5 Experiment

用到了哪些数据集

  CDD、WHU-CD、OSCD、HRSCD

与什么算法进行了比较

  CDNet, FC-EF,
FC-Siam-conc, FC-Siam-diff, DASNet,
STANet.

实验中的重要指标有哪些?

  TP , TN, FP , FN, precision, recall, F1-score, and overall accuracy (OA).

文章提出的方法在哪些指标上表现好?在哪些指标上表现不好?

在这里插入图片描述

实验中作责实验环境已经参数

  GPU:Nvidia Titan XP;optimizer:Adam;epochs:200,learning rate:0.00001。作者采用简单的翻转操作进行数据增加,每次保存F1分数最高的模型来进行评估。

2.6 Conclusion

这篇论文最大的贡献是什么?

  提出了SwinSUNet,一个具有Siamese U形结构的纯Swin transformer网络。这是第一个基于纯transformer的CD网络。

3 不懂之处

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/1011403
推荐阅读
相关标签
  

闽ICP备14008679号