NeurIPS 2022 视觉转换器医学图像分割生成对抗网络_class-aware adversarial transformers

作者：Monodyee | 2024-04-01 11:18:58

踩

class-aware adversarial transformers

【本文首发于CSDN个人博客，转载请注明出处。In case of infringement, please contact to delete.】

论文是NeurIPS 2022的《Class-Aware Adversarial Transformers for Medical Image Segmentation》。该文提出CASTformer模型（一种简单而有效的对抗transformer），用于 2D 医学图像分割。论文原文链接

下面是我的逻辑和理解，论文中提到的简单内容会略过，若有错误请指出。

p.s. 欢迎【关注&点赞&收藏】

一些小问题

首先解决一些阅读过程中的小问题。

什么是class-aware？与L1 和 L2 正则化的区别在哪里？

L1 和 L2 正则化通过向损失函数添加惩罚项来帮助降低模型的复杂性。这个惩罚项通过减少模型中权重的大小来鼓励模型学习数据中更简单的模式。通过减小权重的大小，L1 和 L2 正则化有助于防止过度拟合并提高模型的泛化性能。

类感知正则化在特征学习过程中优化类内方差和类间距离，以提高分割性能。通过在特征学习过程中优化类内方差和类间距离，类感知正则化有助于更好地学习具有语义结构的对象的判别区域，并生成更准确的分割标签图。

为什么CNN的缺点是缺乏long-range dependencies？

CNN 旨在通过将卷积滤波器应用于输入图像的小区域来学习局部特征。这种设计使它们对许多图像处理任务都高效且有效。然而，这种设计也使得 CNN 难以对图像中像素之间的远程依赖关系进行建模。另一方面，Transformer 旨在模拟序列中元素之间的远程依赖关系。他们通过使用允许序列中的每个元素关注序列中的所有其他元素的自注意力机制来做到这一点。这使得 Transformer 在对图像和其他类型数据的远程依赖建模方面比 CNN 更有效。

low scale/high-scale是什么意思？

尺度是指卷积层中使用的过滤器的大小。不同大小的过滤器可以捕获不同尺度的特征。例如，大小为 3x3 的过滤器可以捕获局部特征，例如边和角，而大小为 5x5 的过滤器可以捕获更大的特征，例如曲线和圆。通过使用多个尺寸的过滤器，模型可以捕获多个尺度的特征并提高其识别图像中物体的能力。

推导过程

步骤总括

multi-scale (通过不同尺度的分辨率Resolution学习）
pyramid结构+transformer：
a) 全局spatial信息
b) 局部context信息
将segmentation作为预测任务:
standard patch token -> perform be sub-optimal -> propose CAT（a progressive sampling strategy). 通过迭代更新得到更有效的feature representation。
GAN:
input + predicted segmentation mask

公式推导

encoder

CNN - 40 layers Conv: 实现多种分辨率的feature map，共4层，即multi-resolution。

$\mathbf{x}\in R^{H \times W \times 3}$ , $F_1 \in R^{\frac{H}{2}\times\frac{W}{2}\times C_1}$ , patch size $P=16\times 16\times 3$ 【此处有个小疑问，见存疑1】。

CAT

task: get the seq of token $I_{M,i}\in R^{C\times (n \times n)}$ , aim at $F_i$ ，有4个。
更新过程： $S_{t+1}=S_t+O_t$ ， $O_t$ 的意义是预测offset。

此处涉及图片坐标系设置（position）：x轴： $\tau_h=\frac{H}{n}$ ，y轴： $\tau_w=\frac{W}{n}$ 。
初始坐标为： $S_1^i=[\beta_i^y \tau_h+\frac{\tau_h}{2},\beta_i^x \tau_w+\frac{\tau_w}{2}]$ 。
分割方式为： $\beta_i^y=\lfloor\frac{i}{n}\rfloor$ 【存疑2】, $\beta_i^x=i-\beta_i^yn$ 。

能够得到： $I_t'=F_i(s_t)$ ,（开始的时候为： $I_1'=F_i(s_1)$ ）。
根据双线性插值的采样函数，得到 $I_t'$ 。每个时刻都会有一个init sample点，会根据 $s_{t+1}$ 更新。

然后进行几个坐标嵌入计算（position embedding）：
$S_t=W_ts_t$ ，其中 $W_t$ 是可以通过学习更新的；
$V_t = I_t'\bigoplus S_t \bigoplus I_{t-1}$ ；
$I_t=transformer(V_{t-1})$ ；
offset: $o_t=O_t(I_t)$ ，其中 $O_t$ 是可以学习的线性mapping。

总结

按我的理解重新画了一下流程图的思路：
在这里插入图片描述

存疑

为什么不是 $F_1 \in R^{H \times W \times 3C}$ ? 才能在patch size $P=16\times 16\times 3$ 得到分割后 $F_1$ 的 patch size $\frac{HW}{16^2}\times C_1$ 吗？
为什么不是 $\beta_i^y=\lfloor\frac{n}{i}\rfloor$ ?

参考

生成对抗网络（GAN）
ResNet详解
 双线性插值
 [CV-图像分类]ViT模型----An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale
强推：【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)
强推：深度学习面试刷题必备（CV版）

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/348708

NeurIPS 2022 视觉转换器 医学图像分割 生成对抗网络_class-aware adversarial transformers

目录