当前位置:   article > 正文

遥感图像语义分割论文(1):SRCBTFusion-Net_语义分割解码器改进

语义分割解码器改进

本文是对TGRS有关遥感图像语义分割论文的总结,如有侵权即刻删除!

遥感图像语义分割论文精读总结:SRCBTFusion-Net

Title: <<SRCBTFusion-Net: An Efficient Fusion Architecture via Stacked Residual Convolution Blocks and Transformer for Remote Sensing Image Semantic Segmentation>>

Code: https://github.com/js257/SRCBTFusion-Net  (本人努力复现中!)

       论文提出了一种用于解决遥感图像语义分割问题的混合Transformer和堆叠残差卷积块的模型:SRCBTFusion-Net,其提供一种有效的方案弥补了现有模型存在的分割不同地物边缘模糊,分割混淆和小尺度地物分割效果差的问题。

Introduction

       遥感图像分割是遥感图像处理过程中必不可少的阶段,分割质量的好坏将对后续的遥感图像处理产生重要影响。语义分割作为一种可行的解决方案,得到了广泛的讨论。然而,不同于自然图像,遥感影像中包含了复杂的地物信息,使得基于CNN的研究具有挑战性:

  • 缺乏足够的全局上下文信息和精细的空间特征:已有策略虽然有利于表示各种大小的物体,但是没有考虑不同类别的上下文依赖关系,没有充分利用特征图的远距离相关性,从而限制了对复杂场景的处理能力。
  • 边缘分割模糊:通过引入已有策略可以对边缘分割进行优化,但由于边界像素通常包含多个像素和阴影等复杂因素的混合特征,获得与众不同的边缘特征仍然具有一定的挑战性。

       上述基于CNN 的方法限制了模型对长距离关系的识别能力和对全局上下文信息的编码能力,由于Transformer可以在不同位置之间建立关联,并捕获序列中的长距离依赖关系,因此现如今多数方法都考虑将Transformer与CNN相结合。而如何高效地融合两种机制以提高遥感图像的分割效果是一个亟待解决的问题!!!

       基于以上分析,论文提出了一种基于堆叠残差卷积块( SRCBs )和Transformer的高效融合的遥感图像分割方法:SRCBTFusion-Net,其采用编码器-解码器结构,将Transformer嵌入到SRCB(带有预训练权重的前四层经典CNN模型ResNet50网络)中形成双编码结构,然后将编码特征上采样并与SRCB的多尺度特征通过跳跃连接融合形成解码结构。

Method

使用ResNet50网络的前四层SRCB来编码输入图像X\in R^{C\times H\times W},以此作为高级特征表示。

SRCBTFusion-Net的整体架构包括4个主要模块:①SIEM:提取全局线索特征用以指导解码器;②RGM:减少细节信息的丢失,增强边缘特征和非边缘像素特征的判别性;③MASM:缓解融合低层和高层特征的跳跃连接带来的混淆;④MFAM:融合多尺度特征,增强对语义和上下文信息的提取,缓解信息损失,提高对相似类别的判别能力,其包含的DCM用于补偿上采样过程中细节信息的丢失。

具体各模块结构如下:

从空间(上半分支)和通道(下半分支)层面提取全局线索特征来指导解码器。

对编码器分支和解码器分支进行重新编码,从而获得信息增强的特征,提高边缘像素的分割能力。

        增强低层特征贡献的特异性,对其进行有效的选择和加权,保证了对局部细节的更好捕捉,通过动态调整对不同层次特征的注意力,可以灵活地捕获不同语义层次的信息,选择性地加强对低层语义的学习。①L3为了处理弱语义信息的引入,设计了一种自注意力机制,在保留低级特征的同时,能够实现更精确的选择和集成,从而减少混淆的引入。②L2设计了一个堆叠的空洞卷积块,以增强网络对更广泛上下文信息的感知。

DCM模块

        一方面,由于融合了编码器和解码器,进一步缩小了局部信息和全局信息之间的差距,另一方面,缓解了解码器在连续上采样过程中细节信息的丢失。

       将解码器每一层的独立特征映射视为同等重要,经过逐级上采样和细节信息补充,获得了富含全局上下文信息和细粒度空间特征的输出,之后采用有效的融合策略进行预测。

       该模块从解码器的最低层开始,执行三次逐级上采样操作,并在每次上采样之后利用卷积进行平滑过渡,最终得到特征图的通道数为128,尺寸大小为原始图像分辨率的1/4的特征图。此外,为了弥补上采样过程的细节信息损失和进一步提高相似地物的分割能力,设计了一个细节补偿模块(DCM)添加到MFAM三条横向支路。最后,将上采样到相同尺度和通道数的三条支路通过拼接策略融合,再通过卷积和2倍上采样到原始图像大小以生成每类像素的预测标签。

Experiment

Rationality of Structural Design(结构设计的合理性)

① SR模块的不同组合形式。

② MFAM模块的不同组合形式。

③ Transformer层数。

Ablation Experiment of Structure(消融实验)

① SR 、MFAM、MASM模块的作用。

② MFAM和FPN比较、MASM和ASPP比较。

Comparison of the State-of-the-Art Methods(与其他方法对比)

       比较的方法中包括基于纯CNN的方法ABCNet (基于Resnet50)和Deeplabv3+(基于Resnet50),以及基于Transformer的方法TransUNet、Swin-Unet、UNetformer 和Segformer。由表分析,相比于所列出的方法,所提出的模型两个数据集上都达到了最好的分割效果,但在参数量、运算速度和分割精度之间不能很好的权衡。

Conclusion

        论文总结:为了探索融合Transformer和CNN的混合架构对于提升分割性能的影响,针对目前遥感图像分割领域存在边界分割模糊和缺乏获取足够上下文信息的难题,提出采用Transformer和CNN结合的双编码网络SRCBTFusion-Net。具体来说,SIEM和RGM增强深层语义信息来提高边缘特征和非边缘像素特征的区分度,MASM模块更精准地选择和整合低级特征,从而减少混淆信息的引入,进一步提高了分割精度。此外,提出MFAM融合多尺度特征,增强语义和上下文信息的提取,缓解了图像特征信息的丢失,提高了相似类别的鉴别能力。通过充分的实验证明了所提方法的优越性。
   未来方向:此方法虽然在分割效果上有很大的优势,但在参数量、运算速度和分割精度之间不能很好的权衡:一方面是级联的Transformer在带来分割性能提升的同时,参数量也大量增加。另一方面,在MFAM中采用了稠密连接的卷积块,这在一定程度上降低了模型的运算速度。针对以上问题,可以选择重点对Transformer的结构进行改进。此外,目前的方法很难对场景中混杂的狭小的区域分割,未来,可以借鉴道路裂缝分割方向的方法应用到遥感图像分割中以进一步优化分割效果。
————————————————

                  





声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/799381
推荐阅读
相关标签
  

闽ICP备14008679号