赞
踩
利用大量训练数据(SA-1B),Meta AI Research 提出的SAM表现出显着的泛化和零样本能力。尽管如此,SAM作为一种与类别无关的实例分割方法,严重依赖于手动的先验信息,包括点、框和粗粒度掩码。此外,它在遥感图像分割任务上的性能尚未得到充分探索和演示。
本文结合语义类别信息,设计了一种基于SAM基础模型的遥感图像自动实例分割方法。受提示学习的启发,本文提出了一种为 SAM 输入学习生成适当提示的方法,使得SAM能够为遥感图像生成语义可识别的分割结果,称之为RSPrompter。本文还根据SAM的最新发展,提出了几种用于实例分割任务的衍生工具,并将它们与RSPrompter进行了比较。在WHU building、NWPU VHR-10和SSDD数据集上的大量实验结果验证了本文提出的方法的有效性。
SAM的示意图如下,它包括一个图像编码器、一个提示编码器和一个掩码解码器,SAM根据提供的输入提示生成相应的对象掩码:
本文使用的SAM如下(d),在已训练的图像编码器和掩码解码器的基础上加入Prompter:
使用轻量级特征聚合器从大型ViT主干中提取语义信息并执行轻量级融合过程:
本文提出了两种prompt,一个是anchor-based prompt,是个带有prompt head的Faster CNN;另一个是query-based prompt,先将由掩码解码器解码的Np个掩码与K个真值实例掩码(通常Np > K)进行匹配,再使用匹配的标签进行监督训练。
本文是一个在SAM中引入Prompt的遥感分割的工作。
DeSAM: Decoupling Segment Anything Model for Generalizable Medical Image Segmentation - 知乎
基于深度学习的自动医学图像分割模型经常受到域转移的影响,在源域上训练的模型不能很好地推广到其他看不见的域。作为具有强大泛化能力的视觉基础模型,SAM显示了提高医学图像分割跨域鲁棒性的潜力。但与给定手动先验知识相比,SAM及其微调模型在全自动模式下的表现要差得多。经过进一步调查,本文发现性能下降与不良的提示信息和掩码分割的耦合效应有关。在全自动模式下,不可避免的不良提示信息(例如点超出了掩码范围或框明显大于掩码)的存在会误导掩码生成。
为了解决这种耦合效应,本文提出了解耦SAM (DeSAM)。DeSAM 修改了SAM的掩码解码器,在利用预训练权重的同时解耦掩码生成和提示信息嵌入。在公开可用的前列腺癌数据集上进行了实验,结果表明,与之前的最先进的域泛化方法相比,DeSAM 将dice score平均提高了8.96%(从 70.06% 提高到 79.02%)。此外,DeSAM 可以在具有入门级GPU的个人设备上进行训练,因为本文的方法不依赖于调整重量级图像编码器。
主要提出了两个模块,一个是PRIM,结构与SAM的掩码解码器相似,用于生成mask embedding;另一个是PIMM,用于生成mask,将这两个模块运用到SAM中,使用随机点输入作为prompt encoder。
本文是一个将SAM和prompt用于医学图像领域的工作,也是图像分割。
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention - 知乎
本文提出了一种自由的增强方法CALIP,通过无参数注意模块来提高CLIP的零样本性能。具体来说,它引导视觉和文本表示相互交互,并通过注意力探索跨模态信息特征。由于预训练大大减少了两种模态之间的嵌入距离,本文丢弃了注意力中的所有可学习参数并双向更新多模态特征,使整个过程无参数且无需训练。通过这种方式做到了图像与文本感知信号混合并且文本表示成为视觉引导的,从而实现更好的自适应零样本对齐。
本文在2D图像和3D点云少样本分类的14个数据集的各种基准上评估CALIP,显示出了零样本性能的改进。在此基础上,本文进一步在CALIP的注意模块中插入少量的线性层,并在少样本设置下验证了本文方法的鲁棒性,与现有方法相比,该方法也取得了领先的性能。
本文提出的是一个parameter-free attention,用它来进行光谱特征和纹理特征的交互。
本文是一个在不进行微调的情况下提升CLIP在零样本下的效果的工作。
【ARXIV2304】SpectFormer: Frequency and Attention is what you need in a Vision Transformer - 知乎
本文假设频谱和多头注意力都在ViT中起着重要作用,通过这项工作来研究这个假设,并发现频谱和多头注意力层相结合提供了更好的Transformer架构,由此提出了SpectFormer。经过实验, Spectformer在多个数据集上表现出了于最佳主干相一致的性能,并且可以进一步优化和改进。因此,本文认为Transformer需要光谱层和注意力层相结合。
SpectFormer采取的是频域+多头注意力的形式,Attention Block对应的是多头注意力,Spectral是FFN和甲醛门控的组合,对应的是频域,经过实验,右边的结构效果更好。
本文是一个将频域信息与注意力相结合的工作,在使用多头注意力时可以尝试在分散的位置添加一定的频域信息。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。