赞
踩
TGDAUNet:基于Transformer和GCNN的医学图像分割双分支关注网络
摘要:
医学图像的准确、自动分割是临床诊断和分析的关键步骤。目前,随着Transformers模型在计算机视觉领域的成功应用,研究人员开始逐步探索Transformers在图像医学分割中的应用,特别是与具有编解码结构的卷积神经网络相结合,在医学分割领域取得了显著的成果。然而,大多数研究将transformer与cnn结合在一个单一尺度上,或者只处理最高级别的语义特征信息,而忽略了低级语义特征信息中丰富的位置信息。同时,对于图像中结构边界模糊、纹理异构等问题,现有的方法大多是简单地连接轮廓信息来获取目标的边界。然而,这些方法不能捕捉到目标的精确轮廓,并且忽略了边界和区域之间的潜在关系。在本文中,我们提出了TGDAUNet,它由cnn和transformer的双分支骨干网和并行关注机制组成,以实现医学图像中病灶的精确分割。首先,在多尺度上融合CNN主干分支的高层语义特征信息,高层和低层特征信息在位置和空间信息上互为补充;我们进一步利用极化自关注(PSA)模块来减少多尺度造成的冗余信息的影响,以便更好地与从transformer主干分支提取的特征信息进行耦合,并在多尺度上建立全局上下文远程依赖关系。此外,我们还设计了反向图推理融合(RGF)模块和特征聚合(FA)模块,共同引导全局上下文。FA模块聚合高级语义特征信息,生成原始的全局预测分割图。RGF模块通过反向注意机制捕获原或次全局预测分割图中边界的非显著特征,建立图推理模块,探索边界和区域之间潜在的语义关系,进一步细化目标边界。最后,为了验证本文方法的有效性,我们将本文方法与目前流行的CVC-ClinicDB、Kvasir-SEG、ETIS、CVC-ColonDB、CVC-300数据集以及ISIC-2016和ISIC-2017皮肤癌分割数据集中的方法进行了比较。大量的实验结果表明,我们的方法优于目前流行的方法。源代码发布在https://github.com/sd-spf/TGDAUNet。
( MF:多尺度融合模块
PSA:极化自关注模块,减少多尺度造成的冗余影响,用于计算高层特征信息通道和空间上的权值
FA:特征聚合模块,生成原始全局预测分割图
RGF:反向图推理融合模块,捕获特征图边界的非显著特征,探索边界和区域之间潜在的语义关系,进一步细化目标边界)
1 介绍
医学图像在医生的诊断和治疗过程中起着非常重要的作用。对于当前医学图像中的视觉任务,医学图像中病灶的准确分割是辅助临床医生进行临床诊断和分析的关键因素,如皮肤镜图像中的皮肤病灶分割[2,3,4],结肠镜图像中的息肉分割[5,6]。因此,建立一种高效、准确的医学图像分割方法,可以为医生提供准确的医学图像解读,减少人工处理的时间、成本和错误,跟踪多种疾病,为患者提供更好的治疗。医学图像分割的目的是从医学图像和其他图像中自动分割目标区域兴趣区域。然而,由于存在结构边界模糊、对比度低、纹理不均匀以及分割区域的不确定性,如图1所示,实现高精度的分割结果仍然是一个挑战。
图1:Kvasir-SEG[7]和ISIC2017[8]数据集中息肉和皮肤病变的大小、形状和颜色的示例图像
近年来,随着深研的蓬勃发展学习[9,10],特别是由于卷积神经网络(cnn)强大的特征提取能力,许多基于cnn的深度学习方法被应用到医学图像分割任务中,为医学图像分割带来了更高的性能[11,12,13,14]。
在由卷积层和下采样层组成的CNN框架中,较低的卷积层具有较小的感知场并提供更多的位置信息,较高的卷积层具有较宽的感知场并提供整个图像中分割目标的上下文信息。在此基础上,许多基于全卷积网络(full convolutional network, FCN)的分割网络被提出用于图像分割[15,16,17]。特别是在以U-Net[15]为代表的编解码结构中,通过编码器和解码器之间的跳过连接来补偿由于多次下采样而导致的精细特征信息的丢失,从而提高网络的性能。
这证明了编解码网络结构的优越性。
随后,许多基于u型结构的网络被提出,如Res-UNet[18]、Attention R2UNet[19]等。然而,从单一的阶段来看,多尺度的上下文特征信息没有得到有效的提取和利用。特别是在医学图像中,当目标区域与其周围环境非常相似时,多尺度的上下文特征信息非常重要,这样就可以同时考虑目标区域的周围环境,从而避免模糊的决策[20]。近年来,研究学者提出了一些多尺度信息集成方法,如PSPNet[21]、PoolNet[22]、DeepLabV3[23]和CE-Net[24]。该方法只处理高级特征信息,忽略了低级特征信息中丰富的位置信息。
尽管基于cnn的方法具有强大的特征提取能力,但由于卷积运算本身的限制,这些方法无法捕获远距离依赖信息。因此,对于纹理、大小和形状差异较大的目标区域,这些方法的性能往往较弱。为了克服这一限制,一些研究人员提出了基于cnn建立注意力机制[25,26,27]。此外,随着transformer在计算机视觉领域的成功应用,提供了额外的解决方案[28,29]。transformer作为一种序列到序列的预测体系结构,不需要任何卷积算子,仅依靠自关注机制提取图像特征信息,建立有效的远程依赖关系。transformer在各种视觉任务中也达到或超过了最先进的性能。虽然transformer擅长建模全局上下文,但它们在捕获细粒度细节方面存在局限性,特别是对于医学图像,在建模局部信息时缺乏空间诱导偏差。就数据量而言,基于transformer的网络结构只有在大规模数据集[28]训练时才有效。CNN架构可以很好地弥补这一限制。
最近,有一些研究将cnn和transformer结合起来应用于医学分割。TransUNet[30]和随后的[31,32,33]研究都使用cnn作为骨干网,transformer对顶层特征信息建立了远程依赖关系。然而,这些方法往往忽略了浅层网络中丰富的空间信息,仅在单一尺度上对上下文进行建模,忽略了跨尺度依赖性和一致性。此外,[34]认为仅仅一层或两层transformer不足以组合依赖于cnn的长距离卷积表示。
基于以上思路,本文基于目前流行的编解码网络结构,设计了一种新的医疗分割网络结构tgdaunet,如图1所示。TGDAUNet骨干网由cnn和transformer双支路组成。网络接受原始输入图像,使用CNN提取多尺度特征信息,transformer对全局上下文信息建模,建立远程依赖关系。[35]指出,与高级语义特征信息相比,低级语义特征信息对网络性能的贡献较小,占用大量的计算资源。因此,在平衡网络性能和计算资源之间,最大程度地保留底层语义特征信息中的位置信息。在双分支骨干网中,我们只使用倒数第二阶段的三个阶段。
在解码部分,基于侧输出残差学习的思想,设计了多尺度融合(MF)模块、特征聚合(FA)模块[5]和并行注意机制。MF模块通过上采样和下采样从CNN骨干网中提取多尺度高级特征信息,分三个阶段对输出的高级特征信息进行交互融合,然后对融合后的特征信息进行降维处理,以减少计算资源的损失。MF模块对融合后的多尺度特征信息进行融合,首先由FA模块对融合后的多尺度特征信息进行聚合,生成初始分割预测图,用于后续的上下文指导以及计算模型损失和优化模型。其次,注意机制主要关注高级特征信息的通道和空间,通过并行注意机制检测全局或局部特征信息,引导上下文,提炼边缘信息;
在注意机制中,它包含两个主要模块:一个是极化自注意(PSA)模块[36],用于计算高层特征信息通道和空间上的权值,减少冗余信息的影响,更好地耦合变压器主干分支提取的全局上下文特征信息,并建立建立多尺度远程依赖关系。其次,反向图推理融合(Reverse Graph-reasoning Fusion, RGF)模块与FA模块形成全局上下文向导,通过生成初始或二次分割的预测图,向上融合,细化区域和边缘细节,引导上下文,同时计算二次预测图的损失。RGF模块结合反向关注模块[37]和图推理模块[38],建立非显著边界特征与区域之间的图关系,探索边界与区域之间的潜在关系,实现跨域特征更新。
我们的主要贡献如下:本文提出了一种新的医学焦点分割框架TGAUNet,该框架采用双分支骨干网和并行关注机制来解决临床焦点分割问题。TGAUNet利用MF模块和PSA模块,通过CNN和transformer的双分支骨干网进一步提取全局和局部特征信息,减少冗余信息的影响,建立多尺度远距离依赖关系。FA模块对高级特征信息进行聚合融合后生成初始分割预测图,利用RGF建立全局上下文引导,建立边界不显著特征与区域之间的图推理关系,并对边缘信息进行细化。
2. 为了获得更详细的全局和局部特征信息,建立了多尺度融合(MF)模块。通过组合不同尺度的特征信息,高低特征信息相互作用,补充位置信息和空间信息,提高网络对复杂场景的理解能力。
3.设计反向图推理融合(RGF)模块。利用该阶段的特征区域和深度分割预测图中不显著的边界特征作为图节点,探索边界与区域之间的关系。然后进行反向注意力融合,进一步细化目标区域,引导语境。
4. 为了验证我们的网络的稳健性和通用性,我们将其与目前流行的方法在息肉数据集CVC-ClinicDB[39]、KvasirSEG[7]、CVC-ColonDB[40]、ETIS[41]、CVC-300数据集和皮肤病变数据集ISIC-2016[42]和ISIC-2017[8]数据集上进行了比较。实验结果表明,与现有的方法相比,我们的模型得到了显著的改进,进一步证实了我们模型的有效性。
本文的主要研究内容如下:在第2节中,我们将介绍医学图像分割的研究现状。在第3节中,我们将详细描述我们使用的方法。在第4节中,我们将与当前进行主客观对比实验
常用方法及消融实验。第五部分是论述与结论。
2. 相关工作
2.1 医学图像分割
近年来,基于深度学习的方法被广泛应用于医学图像分割领域[5,15,19,43],如息肉分割[5]、皮肤病变分割[44,17]。自UNet[15]提出以来,其编解码结构已成为医学分割中最流行的方法。UNet通过跳转连接在编码器和解码器之间组合低级特征信息。在接下来的几年里,许多基于u型架构的网络被应用到医疗分割领域。Res-UNet[18]借鉴残差结构的思想,在编解码的各个阶段添加残差结构,更有效地保留详细信息。unnet++[43]在跳跃连接的基础上增加了残余结构的密集
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。