赞
踩
论文题目:Remote Sensing Image Change Detection with Transformers
收录于:IEEE TGRS2021
论文地址:Remote Sensing Image Change Detection With Transformers | IEEE Journals & Magazine | IEEE Xplore
https://arxiv.org/abs/2103.00208
变化检测(CD)虽取得较大成功,但考虑到场景中物体的复杂性,高分辨率遥感CD仍然具有挑战性。具有相同语义概念的物体再不同的时间和空间位置可能表现不同的光谱特征。纯卷积的CD pipelines难以将长距离的concepts在时空上联系起来,非局部的自注意力方法通过对像素间的密集关系进行建模而显示出较好的性能,但计算较低效。
论文,提出了一中双时态图像Transformer(bitemporal image transformer,BIT),以便在空间-时间域内有效地对上下文信息进行建模。直觉是,兴趣变化的高层次概念可以用几个视觉单词来表示,即语义标签。
为实现这一点,论文将双时态图像表达为几个标签token,并使用Transformer编码器在紧凑的基于token的时空中建模上下文。然后,学习到的富含全局信息的token被反馈到像素空间,通过Transformer解码器细化原始特征。
论文将BIT纳入一个基于深度特征差分(deep feature differencing-based)的CD框架中。在3个数据集上(LEVIR-CD、WHU-CD、DSIFN-CD)进行大量实验,性能超越当前sota。基于BIT的模型性能优于纯卷积baselines,而计算成本和模型参数仅比纯卷积baselines低3倍。
实验结果:
变化检测(CD)的目标是通过比较在不同时间拍摄的同一区域的共同注册图像,为该区域的每个像素分配二进制标签(即变化或未变化)。
高分辨率的光学遥感图像在CD任务上具有挑战性,表现在两方面:①场景中物体的复杂性;②不同的成像条件。导致具有相同语义概念的目标在不同时间和不同空间位置(时空)表现不同的光谱特征。
如图所示。如图1(a)所示,场景中的建筑对象具有不同的形状和外观(黄色框),并且由于照明变化和外观改变,同一建筑对象在不同时间可能具有不同的颜色(红色框)。为了识别复杂场景中的兴趣变化,增强CD模型需要,①识别场景中兴趣变化的高级语义信息,②区分真实变化和复杂的无关变化。 图(b)高级图像特征,BIT使用时空中的全局信息来增强原始特征。增强特征与原始特征间的差异图(c)显示建筑区域在时空上的特征持续改善。
时空的全局信息对于识别高分辨率遥感图像中的变化区域很重要,现常使用卷积(局限于RF接收域)和注意力机制(计算量较大)来对全局信息建模。
为应对上述挑战,论文引入双时态图像转换器(BIT)来高效地建模双时态图像中的全局语义信息,以提高CD的性能。直觉是,兴趣变化的高级概念可以用几个视觉单词来表示,即语义标签。BIT没有在像素空间中建模像素之间的密集关系,而是将输入图像表示为几个高级语义标记,并在基于标记的紧凑时空中建模上下文。然后,利用每个像素和语义标记之间的关系来增强原始像素空间的特征表示。
本文,提出双时态图像Transformer(BIT)分别对两张图像中的全局信息建模,使用语义标签来突出细化变化区域。
遥感图像CD方法有两个主流:
本文的主要目的是以高效的方式学习和利用双时态图像中的全局语义信息,以提高CD的性能。
由于transformer的强大表示能力,基于transformer的模型在各种视觉任务中表现出与卷积模型相当甚至更好的性能。
本文探讨了二进制CD任务中transformer的潜力。本文提出的基于BIT的方法在时空中建模全局语义关系方面是高效的,有利于兴趣变化的特征表示。
基于BIT的模型的整体过程如图2所示。
将BIT合并到正常的变化检测管道中,因为希望利用卷积和变压器的优势。模型从几个卷积块开始,获得每个输入图像的特征图,然后将它们输入BIT,生成增强的双时态特征。最后,生成的特征映射被馈送到预测头以产生像素级的预测。关键点是BIT学习并关联高级语义概念的全局背景,以及反馈,以受益于原始的双时态特征。
将BIT合并到基于深度特征差分的CD框架中。流程如下:
- 首先,利用CNN主干网(ResNet)用于从输入图像对中提取高级语义特征。
- 利用空间注意将两个不同时间特征图转换为一组紧凑的语义标签。
- 再使用transformer编码器在两个标签集中对全局信息进行建模。
- 生成的含有全局信息丰富的标签由连体transformer解码器重新投影到像素空间,以增强原始像素级特征。
- 最后,从两个细化的特征图中计算特征差异图像(Feature Difference Images,FDI),然后将它们输入到浅层CNN中,以生成像素级的变化预测。
BIT有三个主要组件:
基于BIT的变化检测模型的推理细节如算法1所示。
输入图像中兴趣的变化可以用几个高级概念来描述,即语义标记。
将图像特征X1和X2转换为一组紧凑的语义标签T1和T2。
Semantic tokens Ti计算公式:
使用连体语义标记器从两个不同时态的特征图中提取紧凑的语义标签。与NLP中的标记器类似,它将输入句子拆分为几个元素(即单词或短语),并用标记向量表示每个元素,语义标记器将整个图像拆分为几个可视单词,每个对应一个标记向量。如图3所示,为了获得紧凑的标签,该标记发生器学习一组空间注意力图,以在空间上将特征映射集中到一组特征,即标签集。
流程:
对两个语义标签集T1和T2进行全局信息建模,得到丰富的语义标签集T1_new和T2_new。
在为输入的双时态图像获得两个语义标记集T1、T2之后,使用transformer编码器对这些标记之间的上下文信息进行建模。
动机是,transformer可以充分利用基于token的时空中的全局语义关系,从而为两个不同时态图像生成丰富的语义标签表示。
流程:如4(a)所示。
transformer编码器由多层自注意力块(MSA)和多层感知器(MLP)块组成。
将高级语义信息表示映射到像素空间,获得像素级的特征。
分别利用含有丰富语义信息的标签T1_new和T2_new,对原始特征X1和X2进行特征细化,获得细化后的特征X1_new和X2_new。
已经为两个不同时间的图像获得了两组全局信息丰富的标签Ti_new(i=1,2)。这些富含全局信息的标记包含紧凑的高级语义信息,很好地揭示了兴趣的变化。现需要将概念的表示投影回像素空间,以获得像素级的特征。
为了实现这一点,使用改进的连体变压器解码器来细化两个不同时间序列的图像特征。
如图4(b)所示。给定原始特征序列X1和X2,变压器解码器利用每个像素和标签集Ti_new(i=1,2)之间的关系以获得细化特征Xi_new。将Xi的像素作为query,标签tokens作为key和value。
每个像素都可以由紧凑的语义标记组合来表示。
transformer解码器由MA(Multi-head Cross-Attention)和MLP组成。移除MSA模块(query、key、value从相同的输入序列取得),用MA模块取代(query来自图像原始特征,key和value来自token标签Ti_new)。
CNN骨干网:ResNet18。
BIT:transformer encoder(1个)和decoder(8个)的数量,MSA和MA中的head数是8。语义标签长度L是4。
Prediction head(预测头):先计算两个细化后的特征图Xi_new和X2_new的特征差分,再绝对值化,再用FCN进行融合生成预测的变化概率图。
Loss函数:交叉熵损失。
3个数据集:LEVIR-CD、WHU-CD、DSIFN-CD。
BIT模型:
实验细节:
评价指标:F1、IOU、OA、Precious、Recall
包括三种纯粹基于卷积的方法(FCEF、FC Siam Di、FC Siam Conc)和四种基于注意力的方法(DTCDSCN、STANet、IFNet和SNUNet)。
对BIT中的3个主要组件(TE(transformer encoder)、T(tokenizer)、TD(transformer decoder))进行实验,分别验证了其有效性。
将学习到的位置嵌入(PE)添加到transformer中,encoder和decoder,观察其性能。
语义标签集的长度L,设置为4(最优)。
Transformer encoder和decoder的深度:
Transformer encoder depth(E.D.)和 Transformer decoder depth(D.D.)
最优:E.D.=1 , D.D.=8 。
网络过程可视化
同一类别像素在整个时空中的高反射率变化给模型识别感兴趣的对象和区分真实变化带来困难 。
时空背景建模对于增强特征识别能力至关重要。文中提出的BIT模块可以有效地在基于token的时空中建模上下文信息,并使用上下文丰富的token来增强原始特征。
本文提出了一种基于变换器的遥感图像变化检测模型。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。