赞
踩
乳腺超声图像的自动分割有助于提高乳腺癌诊断的准确性。近年来,卷积神经网络(CNN)在医学图像分析中取得了巨大的成功。然而,它表现出的局限性,在建模的长期关系,这是不利的超声图像斑点噪声和阴影,导致乳腺病变分割的准确性下降。Transformer可以获得足够的全局信息,但在获取局部细节方面存在不足,需要在大规模数据集上进行预训练。在本文中,我们提出了一种混合CNN-transformer(HCTNet),用于提高超声图像中的乳腺病变分割。在HCTNet的编码器中,设计了Transformer编码器块(TEBlocks)来学习全局上下文信息,并将其与CNN相结合来提取特征。在HCTNet的解码器中,基于空间注意机制开发了空间交叉注意(SCA)模块,减少了与编码器的语义差异。此外,在解码器块之间使用残余连接,通过聚合不同语义尺度的上下文特征图,使生成的特征更具区分力。在三个公开的乳腺超声数据集上进行的大量实验表明,HCTNet在乳腺超声病变分割上优于其他医学图像分割方法和最近的SEMMEMantic分割方法。
女性乳腺癌现已超过肺癌,成为2020年全球癌症发病率的主要原因,也是全球癌症死亡的第五大原因[1]。超声成像以其安全、经济、高效等优点被广泛应用于乳腺肿块的诊断。从超声图像中准确分割乳腺病灶是计算机辅助诊断(CAD)的重要步骤,有助于乳腺癌的诊断和治疗,从而有效降低死亡率。然而,由于斑点噪声和强阴影(如图1(a)所示)以及乳腺病变的不规则性(如患者之间不同的肿瘤形状和大小)导致的超声成像质量低下,乳腺超声病变的分割仍然是一项具有挑战性的任务[2]。
卷积神经网络(CNN)是一种端到端的深度学习方法。它可以提取深层特征,在处理乳腺超声图像分割方面取得了惊人的进展[3-6]。在这些网络中,像U-Net [8]这样的对称编码器-解码器架构是主流模型架构。由于U形结构的简单和优异的性能,越来越多的各种U形网络被提出,包括UNet++ [9],Attention Unet [34]和FPN [10]。然而,这些方法都是基于CNN通过堆叠卷积核来逐渐获得大的感受野并整合全局上下文信息,这具有一定的局限性。首先,卷积运算的深度堆叠增加了网络参数,导致计算效率降低和网络优化困难[7]。第二,卷积的局部操作使得网络在分割乳腺超声病变时欠分割或过分割。如图1(d)-(f)所示,CNN(如Unet [8],Unet++ [9]和FPN [10])通过滑动卷积核来分割病变,这将导致一些具有与病变相似外观的正常组织被错误识别,导致分割不令人满意。
在超声图像中有许多正常像素,它们远离乳房病变,但在外观上与乳房病变相似。结合这些像素可以为乳腺超声病变的分割提供长期的非局部特征,使网络能够学习区分特征[2]。Transformer无疑是完成这一任务的理想方法。近年来,基于变换的医学图像分割得到了广泛的发展。通过使用自注意,Transformer可以直接对长程依赖关系进行建模,以弥补CNN在处理长程依赖关系方面的不足,从而提高网络性能[11]。然而,基于transformer的模型需要在大规模数据集上进行训练才能表现良好,因为它们缺乏CNN固有的一些归纳偏差[14],并且在应用于具有小数据集的乳腺超声医疗任务时可能难以学习图像的位置编码[12];并且将Transformer直接应用于高分辨率原始图像所需的计算成本非常昂贵。
CNN具有提取局部特征的优势,但缺乏对全局信息的直接建模。相比之下,基于自注意机制,Transformer可以学习全局像素点之间的关系,但在表示局部细节方面不如CNN强大[15]。因此,有研究者开始探索如何将联合收割机卷积和自我注意力适当结合,构建最优的医学分割网络[19-21]。Gao等人。[19]提出了UTNet,其中CNN和Transformer交替应用于不同分辨率的编码器和解码器,以提高分割性能。nnFormer [20]通过利用交织卷积和自注意操作的组合以及引入基于局部和全局体积的自注意机制,提出了用于体积图像分割。Xu等人[21]在不同尺度上整合了丰富的局部特征和全局上下文信息,并将自注意机制应用于多尺度特征图,以分割乳腺超声病变。
在这项工作中,我们提出了一个混合CNNs-Transformer网络(HCTNet)的乳腺超声图像分割。具体地,在编码器中设计了Transformer编码器块(TEBlock)以捕获长程依赖性。编码器使用混合主干,其中卷积和Transformer交错以给予充分发挥其优势。在解码器中设计了空间交叉注意(SCA)模块,以减少编码器和解码器之间的语义差异。HCTNet与七种最先进的分割方法在三个公开的乳腺超声病变数据集上进行了广泛的比较。本文的贡献主要体现在以下三个方面。
·首先,本文提出了一种用于乳腺超声图像分割的分割网络HCTNet,它集成了CNN和Transformer的优点,在三个公共数据集上实现了比最先进的分割网络更好的性能。
其次,我们在编码器中提出了一个TEBlock来计算超声图像中像素之间的相互作用,以补偿CNN捕获的全局信息的缺乏。
·第三,我们开发了一个SCA模块,通过融合空间注意图来减少编码器和解码器之间的语义差异。此外,在解码块之间利用残差连接来增强乳腺超声图像中病变的位置信息。
在过去的几十年里,乳腺超声医学图像处理的相关工作在深度学习的浪潮中得到了显著的发展。在这里,我们简要回顾了基于CNN的,基于Transformer,CNN-Transformer融合方法在乳腺超声医学图像分割和相对位置编码Transformer。
2.1. CNN-based methods
近年来,随着深度学习的不断发展,各种经典的CNN模型被开发出来,如FCN [32],Unet [8],Unet++ [9],FPN [10]和DeepLabv 3 + [33]。基于这些模型,与乳腺超声图像相关的研究取得了惊人的进展。Shareef等人。[3]利用行-列方式的内核来适应乳房解剖结构,并在两个编码器分支中以不同尺度融合上下文信息,以分割小的乳房肿瘤。Hu等人[4]提出将扩张卷积网络与基于相位的活动轮廓模型结合联合收割机,以自动分割乳腺病变区域。雅普等人[5]使用CNN方法进行乳腺超声病变检测,并比较研究了三种基于CNN的方法。Zhu等人[6]通过利用多个特征子区域的二阶统计量开发了一种用于乳腺病变分割的二阶子区域网络。
感兴趣,看一下
L. Zhu, R. Chen, H. Fu, C. Xie, L. Wang, L. Wan, P.A. Heng, A second-order
subregion pooling network for breast lesion segmentation in ultrasound, in:
International Conference on Medical Image Computing and Computer-Assisted
Intervention, Springer, Cham, 2020, October, pp. 160–170, https://doi.org/
10.1007/978-3-030-59725-2_16.
2.2. Transformers-based methods
Transformer的核心思想是应用自我注意机制来捕获长期依赖关系。Mo等人[38]提出了HoVer-Trans模型,在乳腺超声图像中使用Transformer进行乳腺癌诊断。Cao等人[13]提出了一种类似Unet的纯Transformer Swin-Unet,它使用具有移位窗口的分层Swin Transformer作为医学图像分割的编码器。然而,Transformer需要在大型数据集上进行预训练,并且高计算复杂性导致训练和推理的大量开销。因此,很少有作品只利用变压器,其中大多数是CNN-Transformer融合方法。
2.3. CNN and transformer fusion methods
CNN与Transformer的融合已经成为一个重要的研究方向。与CNN相比,Transformer通过对图像特征进行编码来放松局部归纳偏差,使其更能够处理非局部相互作用[20],这弥补了CNN在处理长程依赖性方面的不足。Chen等人[16]首次提出了TransUnet来探索Transformer在医学图像分割中的潜力。他们使用CNN作为特征提取器,并利用Transformer从CNN的特征图中提取全局上下文信息。Wang等人[37]提出了TFNet,使用Transformer融合CNN提取的特征,并取得了比CNN更好的性能。Yao等人。[17]首先使用卷积运算来获得特征图,然后使用Transformer对图像块进行编码以获得全局上下文信息。在上述融合方法中,Transformer应用于CNN的低分辨率特征图之上,这没有充分利用Transformer的优势。像UTNet [19]和nnFormer [20]这样的方法通过采用混合茎来改进这种融合策略,该混合茎在卷积和自我注意中相互缠绕,充分利用它们的优势。在我们的网络的编码器中制定了类似的方法。然而,为了进一步降低模型的复杂度以及编码器和解码器之间语义特征的差异,我们设计了SCA模块来恢复整个图像的空间特征,而不是在解码器中使用CNNs-Transformer融合方法。
2.4. Relative positional encoding
在Transformer中,将位置信息组合到一个显式表示中是一个重要的考虑因素。标准的自我注意模块完全丢弃位置信息,并且是扰动等价的,限制了视觉任务的表现力[23]。因此,Shaw等人。[24]提出了一种自我注意力的扩展,用于合并序列的相对位置信息,以提高机器翻译性能。Bello等人。[23]通过独立添加相对高度和宽度信息来实现2D相对自注意,为图像分类训练引入了一种新的2D相对自注意机制。Ramachandran等人。[25]使用具有2D相对位置嵌入的自我注意模块验证自我注意是否可以成为有用的独立层。
图注:HCTNet的原理图。编码器通过CNN和TEBlocks提取不同尺度下乳腺超声图像的全局特征。
SCA模块用于解码器中,以减少与编码器的语义差异。TEBlock和SCA的详细信息如图2和3所示。3和4所示。
图2说明了HCTNet的架构。HCTNet将乳腺超声图像作为输入,并以端到端的方式生成分段掩模。具体来说,HCTNet在编码器中从浅层到深层逐渐提取不同分辨率的特征。对于具有相同分辨率的特征图,我们首先使用CNN提取原始局部特征,然后通过TEBlock学习长程依赖关系。我们可以在编码器的多个阶段中获得不同尺度的特征图的全局上下文关系。此外,CNN可以补充Transformer中缺乏的一些归纳偏差,Transformer需要通过大规模数据集的预训练来学习[14]。在解码器中,我们以不同的尺度从深到浅对特征图进行上采样。SCA模块融合了来自编码器和解码器的特征映射,以减少上采样期间的语义差异。为了进一步优化分割结果,我们采用解码器块之间的残差连接来细化病变的细节。最后,HCTNet生成预测图作为分割结果。以下小节将详细介绍HCTNet中的Transformer编码器块(TEBlock)和SCA模块。
图注:TEBlock的原理图。MHSA以单个自注意机制为例,其中,矩阵加法和矩阵乘法分别表示矩阵加法和矩阵乘法。
3.2.1. Transformer Encoder Block
超声图像固有地具有斑点噪声和类似于病变的阴影区域。卷积不能直接学习长距离依赖性,导致CNN在提取局部空间特征信息时往往包含非病变区域或丢失部分病变区域。为了解决CNN的这个问题,我们通过在编码器的多个阶段引入TEBlocks来学习全局上下文信息来补偿卷积的退化。如图2所示,TEBlock探索特征图中像素点之间的上下文关系。它将当前卷积层处理的特征图作为输入,并输出全局上下文特征图。
图3示出了TEBlock的示意图。TEBlock是基于多头自注意(MHSA)构建的,它允许模型联合关注来自不同位置的不同表示子空间的信息[11]。TEBlock将卷积特征映射X ∈ RC×H×W作为输入,其中H、W是空间高度、宽度,C是通道数。为了避免MHSA直接应用于特征图X时消耗过多的计算资源,我们首先用1 × 1卷积挤压通道C得到X ′ ∈ RC ′ ×H×W,然后将X ′输入MHSA得到注意力加权的特征图,最后用1 × 1卷积将特征图的通道恢复到C。通过MHSA,在特征图X '的像素之间建立了相互依赖性,这有助于HCTNet区分病变和非病变区域。在第二次1 × 1卷积之后应用残差连接[22],将先前的特征图X添加到MHSA处理的特征图中,以加速模型优化并降低注意力加权特征图的学习难度。输出Y ∈ RC×H×W:
其中fconv表示1 × 1卷积,σ表示ReLU激活函数,Attention表示MHSA操作。
MHSA是TEBlock的核心,本文采用了四个头。为了便于展示,图3以单个自注意机制为例。输入X ′分别使用三个1 × 1卷积投影到查询(表示为Q),键(表示为K)和值(表示为V)的嵌入空间中,其中Q,K,V ∈ RC ″ ×H×W,C ″表示每个头部嵌入时通道的维数。然后Q,K,V被整形和转置以获得大小为HW× C′′的矩阵。矩阵Q中的每个向量qi都用K的转置矩阵来表示,并通过Softmax函数进行归一化,以获得上下文聚合矩阵或相似性矩阵。具体地,第i个查询向量的上下文聚合矩阵(即,Qi)可以表示为:
其中Pi ∈ R1×HW。然后,矩阵Q中所有向量的输出形成相似性矩阵P ∈ RHW×HW。使用P作为权重,从V中收集全局上下文信息,V表示正在构建的特征图。自我注意的输出可以表示为:
上述注意力机制还需要特别考虑像素点之间的相对位置变化,如果自注意力不包含位置信息的显式表示,则其是扰动等变的[23],这导致高度结构化图像内容的无效建模。基于以前的工作[23-25],我们采用了适合视觉任务的2D相对位置编码[23]。通过将相对高度和宽度信息独立地添加到自注意力中,
TEBlock考虑了特征图的内容信息和不同位置处的特征之间的相对距离,从而实现内容信息与位置之间的有效关联。因此,我们在Softmax之前对特征图使用相对位置编码来表示特征图像素点之间的相对位置关系。像素i和像素j之间的成对注意力对数可以表示为:
其中qi表示像素i的查询向量(Q的第i行),kj是像素j的关键向量,rW jx−ix和rH jy−iy分别是相对宽度jx − ix和相对高度jy − iy的学习嵌入。2D相对位置自我注意力可以表示为:
其中Z是TEBlock中MHSA的输出,Srel H、Srel W ∈ RHW×HW是沿沿着高度和宽度维度的相对位置对数的矩阵,分别满足Srel H [i,j] = qT i rH jy−iy、Srel W[i,j] = qT i rW jx−ix。
3.2.2. Spatial-wise Cross Attention----3.2.2.空间交叉注意
在乳腺超声图像分割中,在像素级处理空间信息是非常重要的。编码器得到的不同尺度下的全局特征图与解码器得到的特征图之间存在语义不一致的问题,使得乳腺超声病变的分割效果不理想。我们开发了一个SCA模块来解决这个问题。SCA模块沿着通道维度挤压来自编码器和解码器的特征图,以获得融合的注意力权重图,并将其与来自编码器的特征图在空间上激励,我们认为这缓解了语义差异的问题,并且可以更清楚地表示病变的位置信息。与Attention Unet [34]中的Attention Gating(AG)等现有的空间注意力机制相比,SCA模块将分别来自编码器和解码器的注意力图进行融合,不仅增强了不感兴趣区域的特征,而且使最终融合的注意力图缓解了编码器和解码器之间的语义差异问题。
如图4所示,输入E ∈ RC×h×w和D ∈ RC×h×w分别是来自编码器和解码器的特征图。两者都通过1 × 1卷积压缩以生成投影映射pE(i,j),pD(i,j)∈ Rh×w,其中E(i,j)和D(i,j)对应于空间位置(i,j),i ∈ {1,2,n,h},j ∈ {1,2,n,w}。通过Sigmoid函数将这些投影映射重新缩放到[0,1],得到注意力映射AE,AD ∈ R1×h×w。AE(i,j)和AD(i,j)分别对应于给定特征图E和D的空间位置(i,j)的相对重要性。为了减少编码器和解码器之间的语义差异,我们添加AE和AD以获得注意力图M ∈ Rh×w,它集成了特征图E和D中信息的相对重要性:
其中WE,WD是1 × 1卷积,σ1是Sigmoid激活函数。M用于从具有全局上下文信息的特征图E获得加权特征图T ∈ Rc×h×w。因此,SCA模块的输出特征图T基于全局背景信息强调病变的位置信息:
其中σ2(x)= max(0,x)表示ReLU激活函数,WT表示3 × 3卷积运算。
为了进一步补充特征图T中病变的细节并减少噪声干扰,在D的上采样之后使用残差连接。利用残差连接进行多尺度融合预测,实现了不同尺度下特征图T和D的融合。在卷积之后,我们获得了解码器块S ∈ Rc×h×w的输出特征图:
其中WZ表示3 × 3卷积运算。
图注:解码器中SCA模块的细节和剩余连接的示意图。SCA模块的输入E和D分别是来自编码器和解码器的特征图,输出特征图是T。在D的上采样之后使用残差连接以获得HCTNet的最终输出特征图S。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。