赞
踩
摘要:
许多个体实验和最近的研究表明,SAM在医学图像分割中表现不佳。如何找到缺失的部分,将SAM强大的分割能力扩展到医学图像分割中是一个自然的问题。本文采用一种简单而有效的自适应技术,将医学特定领域的知识集成到分割模型中,而不是对SAM模型进行微调。虽然这项工作仍然是少数将流行的NLP技术适配器转移到计算机视觉案例中的一个,但这个简单的实现在医学图像分割上显示出惊人的良好性能。我们称之为医学SAM适配器(medical SAM Adapter, MSA)的医学图像,在包括CT、MRI、超声图像、眼底图像和皮肤镜图像在内的19种不同图像模式的医学图像分割任务中表现出优异的性能。MSA优于各种最先进的(SOTA)医学图像分割方法,如nnUNet, TransUNet, UNetr, MedSegDiff,并且也优于完全精细的MedSAM,性能差距相当大。代码将在https://github.com/WuJunde/Medical-SAM-Adapter上发布。
问题:
1.为什么需要SAM用于医学图像分割?
我们相信交互式(基于提示的)分词是所有分词任务的范例。提示符决定了预期结果的粒度,是zero-shot segmentation所必需的,应该由用户提供。例如,在医学图像中,根据不同的要求和用途,可能需要从单个眼底图像中分割出眼底图像上的不同目标,如血管、视盘、视杯和黄斑。SAM为交互式分割提供了一个很好的框架,使其成为基于提示的医学图像分割的完美起点。
2.为什么需要微调?
SAM的预训练模型通过精心设计的数据引擎在全球最大的分割数据集上进行了训练。这种模型对于医学图像分割是有价值的,因为许多研究表明,对自然图像进行预训练也有利于医学图像分割,至少在收敛速度上是这样。
3.为什么使用parameter-efficient fifine-tuning (PEFT) 和adapter进行微调?
PEFT已被证明是一种有效的策略,可以针对特定用途对大型基本模型进行微调。与完全微调相比,它使大多数参数保持冻结,学习的参数要少得多,通常不到总数的5%。这使得快速更新的高效学习成为可能。研究还表明,PEFT方法比完全微调效果更好,因为它们避免了灾难性遗忘,并更好地推广到域外场景,特别是在低数据状态下。在所有PEFT策略中,adapter不仅在自然语言处理中,而且在计算机视觉中,作为对下游任务的大型基本视觉模型进行微调的有效工具而脱颖而出。研究表明,adapter可以很容易地用于各种下游计算机视觉任务。因此,我们认为adapter是将SAM带入医学领域的最合适的技术。
贡献点:
1.我们将流行且强大的SAM模型的功能扩展到医疗领域,这是朝着“segment everything”的最终目标迈出的重要一步。
2.据我们所知,我们是第一个提出一般医学图像分割的自适应方法。在设计适配器时,我们考虑了特定领域的知识,例如医疗数据的高维(3D),以及独特的视觉提示设置,例如解码器的点击和bbox提示。
3.我们已经在19个医学图像分割任务中评估了我们提出的MSA模型,这些图像分割任务包括MRI、CT、眼底图像、超声图像和皮肤镜图像。我们的结果表明,MSA比以前的最先进的方法有相当大的优势。
方法:
方法主要是在ViT块中嵌入Asapter块,模型冻结其他参数,只对adaper块进行更新。
如图b中所示,adapter有down、relu、up三部分构成 。down使用简单的MLP层将给定的嵌入压缩到更小的维度;up使用另一个MLP层将压缩的嵌入扩展回其原始维度,relu是指的relu函数。
图a是原始SAM中的Vit块。
图b表示应用2D医学图像的修改,在多头注意力机制和残差块之后分别插入adapter,并在adater之后进行缩放。
图c表示应用3D医学图像的修改,主要考虑深度相关的影响。将一个VIT块分成两个分支,depth branch 和 space branch,对于给定深度为D的3D样本,我们将D x N x L发送到空间分支中的多头注意力,其中N为嵌入的数量,L为嵌入的长度。在这里,D是操作的数量,并且在N x L上应用交互来学习和抽象空间相关性作为嵌入。在深度分支中,我们首先对输入矩阵进行转置,得到N x D x L,然后将其发送到相同的多头注意。虽然我们使用相同的注意机制,但交互作用应用于D x l。通过这种方式,深度相关性被学习和抽象。最后,我们将深度分支的结果转回其原始形状,并将其添加到空间分支的结果中。
图d表示用于提示的修改。如图加入三个adapter。
训练策略:
图像编码器:与SAM中使用的MAE预训练不同,我们使用了几种自监督学习方法的组合进行预训练。前两种分别是对比嵌入-混合预测(e-Mix)和洗牌嵌入预测(ShED)[32]。e-Mix是一种对比目标,它将一批原始输入嵌入进行加性混合,并用不同的系数对它们进行加权。然后,它训练编码器为混合嵌入生成一个向量,该向量与原始输入的嵌入按混合系数的比例接近。ShED对一小部分嵌入进行洗刷,并用分类器训练编码器来预测哪些嵌入受到了干扰。在SAM的原始实现之后,我们还使用了掩码自编码器(MAE),它掩码给定部分的输入嵌入并训练模型来重建它们。
提示编码器:对于单击提示,正数单击表示前景区域,负数单击表示背景区域。我们使用随机和迭代点击抽样策略的组合来训练这个提示。具体来说,我们首先使用随机抽样进行初始化,然后使用迭代抽样过程添加一些点击。迭代采样策略类似于与真实用户的交互,因为在实践中,每次新的点击都被放置在由网络使用先前点击集产生的预测的错误区域中。我们生成随机抽样,模拟迭代抽样。我们在SAM中使用了不同的文本提示训练策略。在SAM中,作者使用CLIP生成的目标对象作物的图像嵌入作为接近其在CLIP中对应的文本描述或定义的图像嵌入。然而,由于CLIP几乎没有在医学图像数据集上进行训练,因此它很难将图像上的器官/病变与相应的文本定义联系起来。相反,我们首先从ChatGPT中随机生成几个包含目标(即视盘,脑肿瘤)定义作为关键字的自由文本,然后使用CLIP作为训练提示提取文本的嵌入。一个自由文本可以包含多个目标,在这种情况下,我们用所有相应的掩码来监督模型。
试验结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。