赞
踩
标题: SwinSUNet: Pure Transformer Network for Remote Sensing Image Change Detection
作者: Cui Zhang , L i e j u n W a n g , Shuli Cheng , and Y ongming Li
发表地方: IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, VOL. 60, 2022
虽然CNN在CD领域取得了巨大的成就,但是它不能有效的捕捉全局信息。
transformer是近年来提出的,它可以有效地提取全局信息,因此被用于解决计算机视觉(CV)任务,并取得了一些成就。在本文中,我们设计了一个采用连体U形结构的纯transformer网络来解决CD问题,并将其命名为SwinSUNet。
对四个CD数据集进行了实验,在这些实验中,SwinSUNet取得了比其他相关方法更好的结果。
Swin transformer
提出一种纯transformer的模型用于变化检测,并且SwinSUNet是第一个用于CD任务的纯transformer网络。
CNN:FC-EF、STANet、DASNet、SNUNet
tranformer:BIT、CAM(方法)
Z. Liu et al., “Swin transformer: Hierarchical vision transformer using shifted Windows,” 2021, arXiv:2103.14030.
由于卷积操作固有的局部性,基于CNN的方法不能有效地提取长期的全局特征,从而限制了CD网络的能力。与之前的方法不同,本文试图探索纯transformer网络在CD任务中的潜力。
Swin transformer
窗口transformer,本文将W-MSA和SW-MSA两种划分窗口的方式交替使用。W-MSA:将特征图分为若干个大小为MxM的窗口,仅仅在每个窗口进行self-attention计算,但是这种方法忽略了窗口之间的交流,所以产生出SW-MSA方法。
假设输入大小为HxWxC,首先,将图片划分为大小为4x4x3的小patch,然后将每一个小patch转化为1维数据,大小为48,然后使用线性嵌入的方法(本文采用全卷积的方法)将48转换为通道C,所以输出大小为 H/4 x W/4 x C。与Swin transformer一样,我们也使用贴片合并层来完成下采样操作。在每个阶段,特征图的分辨率减半,而维度则增加一倍。操作如图所示:
Fusion主要用于合并编码器生成的两个特征图,Fusion由一个连接层(连接两个特征图)、一个线性投影层(降低维度)和两个Swin transformer块(有效融合)组成。在此过程中,分辨率保持不变。
每一层包括UM块和若干个Swin transformer块组成,每一次操作,将像素扩大一倍,通道减小一倍。再完成3次后,大小变为H/4 × W/4 x C,最后再通过使用一个线性映射将通道C变为2,生成一个变化图。其中UM模块:由一个上采样块和一个合并块组成。具体操作如图所示:
patch Reshaping操作:
CDD、WHU-CD、OSCD、HRSCD
CDNet, FC-EF,
FC-Siam-conc, FC-Siam-diff, DASNet,
STANet.
TP , TN, FP , FN, precision, recall, F1-score, and overall accuracy (OA).
GPU:Nvidia Titan XP;optimizer:Adam;epochs:200,learning rate:0.00001。作者采用简单的翻转操作进行数据增加,每次保存F1分数最高的模型来进行评估。
提出了SwinSUNet,一个具有Siamese U形结构的纯Swin transformer网络。这是第一个基于纯transformer的CD网络。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。