赞
踩
发表时间:2021
论文地址:https://arxiv.org/abs/2102.04306
代码地址:https://github.com/Beckschen/TransUNet
在不同的分割任务中,U-Net已经成为一个取得巨大的成功的标准结构。由于卷积操作本身的局部性,U-Net在显式建模长距离依赖时有局限。Transformer是为序列到序列的预测设计的,是具有天生全局自注意力机制的结构,但也会因为不充分的低水平细节导致有限的定位能力。
在此论文中,提出了TransUNet,兼具了Transformer和U-Net的优点。一方面,Transformer可以对来自CNN特征图的标记化特征图像patch进行编码,编码为用于提取全局背景的输入序列。另一方面,解码器上采样编码后融合了高分辨率CNN特征图的特征,用以确保精确的定位。
我们认为,融合了U-Net恢复定位的空间信息来增强细节之后,Transformer可以作为图像分割任务的一个强大的编码器。
融合CNN和自注意力机制
Transformer
通过transformer的使用,将自注意力引入编码器。
图像序列化
首先将输入的图像变形为一个2D的patch序列,每个patch的大小为 P×P,数量为 N = H W P 2 N=\frac{HW}{P^2} N=P2HW
patch 嵌入
我们使用一个可训练的线性投影,将向量化的patch x p x_p xp 映射进一个D维的嵌入空间。为了编码patch空间信息,我们学习具体的加入了patch嵌入的位置嵌入来保留位置信息
E表示patch嵌入映射, E p o s E_{pos} Epos表示位置嵌入
Transformer编码器包括L层多头自注意力(MSA)和多层感知机(MLP),第 l 层的输出如下:
LN表示层标准化,
z
L
z_L
zL 表示编码后的图像表示。
对于分割的目的,一个直接的方法时使用简单上采样,将编码后的特征表示 z L ∈ R H W P 2 × D z_L∈R^{\frac{HW}{P^2}×D} zL∈RP2HW×D 变成全分辨率用于预测输出。为了恢复空间关系,编码后的特征应该首先要从 H W P 2 \frac{HW}{P^2} P2HW 转换为 H P × H P \frac{H}{P}×\frac{H}{P} PH×PH。我们使用1×1的卷积来把变形后的特征通道数减少为类别数目。然后再直接使用双线性上采样为全分辨率 H × W H×W H×W 作为最后的分割预测输出。
尽管将Transformer和简单的上采样结合已经产生了一个可以接受的表现,但这不是最优的用法。因为 H P × H P \frac{H}{P}×\frac{H}{P} PH×PH 通常小于原始图像的 H × W H×W H×W,因此结果会有细节上的损失(例如器官的形状和边界)。为了弥补损失,TransUNet将一个 CNN-Transformer 混合结构作为编码器,并且级联上采样器可以精确的定位。
混合CNN-Transformer作为编码器
我们选择这种设计因为1)它允许我们在解码路径中利用中等高分辨率CNN特征图;2)我们发现这种编码器比简单的Transformer编码器表现更好。
级联上采样器
我们引进了一个级联上采样器(CUP),它包括不同的上采样步骤。
我们可以看到CUP和混合编码器构成了一个u型网络,可以再不同分辨率下通过跳跃路径进行特征传播。详细的CUP结构和跳跃路径可以再图1(b)中找到
Transformer以带有强大的自注意力机制的结构而出名。在本论文中,我们提出了第一个对于Transformer用于医学图像分割的研究。为了充分发挥Transformer的能力,提出了TransUNet,不但可以通过将图像特征处理为序列来编码全局上下文信息,也可以通过u型结构的设计来利用低水平的CNN特征。作为一个相比基于FCN方法来说更加非主流的框架,TransUNet取得了更好的表现,对比于不同的方法(包括基于CNN的自注意力方法),
https://blog.csdn.net/weixin_40096160/article/details/114194562
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。