赞
踩
本文主要对于医学影像上的图像分割模型进行调研以及经验总结,以基础框架进行分类:
- mamba
- transformer
其中以mamba相关的图像分割模型有:VM-Unet,Manba-Unet,BRAU-Net++,MDD-Unet,EGE-Unet,U-Mamba
Paper:BRAU-Net++: U-Shaped Hybrid CNN-Transformer Network for Medical Image Segmentation
Paper:U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation
受状态空间序列模型(SSM)这一新的深度序列模型家族的启发,该模型以其处理长序列的强大能力而闻名,论文设计了一个混合 CNN-SSM 模块,它将卷积层的局部特征提取能力与以下能力集成在一起: 用于捕获远程依赖性的 SSM。 此外,U-Mamba 具有自我配置机制,无需人工干预即可自动适应各种数据集。
Paper:VM-UNet: Vision Mamba UNet for Medical Image Segmentation2402.02491.pdf (arxiv.org)
论文框架包含了:Patch Embedding layer, an encoder, a decoder, a Final Projection layer, and skip connections.
结果
Paper:Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining
Code:JiarunLiu/Swin-UMamba: Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining (github.com)
总结
Paper:Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation2402.05079.pdf (arxiv.org)
在本论文中,简单介绍了之前论文的VSS块,编码器,解码器,Bottleneck & Skip Connetions
在本文中作者认为与典型的视觉转换器不同,VSS 模块了位置嵌入。视觉转换器不同,它没有 MLP 结构、所以就能在相同的深度预算内堆叠更密集的区块。
以transformer为框架的模型:LViT
Paper:LViT: Language meets Vision Transformer in Medical Image SegmentationLViT:医学图像分割中的语言与视觉转换器的结合
2206.14718v4.pdf (arxiv.org)
深度学习在医学图像分割等方面得到了广泛的应用。然而,由于数据注释成本过高,无法获得足够的高质量标记数据,现有医学图像分割模型的性能受到限制,提出了一种新的文本增强医学图像分割模型LViT(语言与视觉转换器的结合)。在LViT模型中,结合了医学文本注释来弥补图像数据的质量不足。此外,文本信息可以指导在半监督学习中生成质量提高的伪标签。还提出了一种指数伪标签迭代机制(EPI),以帮助像素级注意力模块(PLAM)在半监督LViT设置中保留局部图像特征。在我们的模型中,LV(语言视觉)损失旨在直接使用文本信息监督未标记图像的训练。为了进行评估,构建了三个包含 X 射线和 CT 图像的多模态医学分割数据集(图像 + 文本)。实验结果表明,所提出的LViT在全监督和半监督环境下均具有优异的分割性能。代码和数据集可在 https://github.com/HUANGLIZI/LViT 上获得。
【1】2024.01.18_VMamba: Visual State Space Model2401.10166.pdf (arxiv.org)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。