赞
踩
图像生成领域爆发性的技术增长让传统计算机视觉技术再次崛起,如目标检测,图像分割,这些技术引入图像生成相关技术的pipeline中,可以设计出更多创新性的算法。而这些基础技术也有了一些大模型,如目标检测的GroundingDINO,图像分割的SAM(segment anything model)。本文主要对SAM进行介绍。SAM是一个交互式分割模型,可以根据提示词对目标进行分割。可有效解决通常自然图像的下游分割任务。
paper:https://arxiv.org/abs/2304.02643
github:https://github.com/facebookresearch/segment-anything/tree/main
SAM模型整体上包含三个大模块,image encoder,prompt encoder和mask decoder。
image encoder用于对输入图像进行特征提取,并获取编码;prompt encoder则是对输入的prompt进行编码;mask decoder最终根据输入的图像和prompt编码进行解码得到最终的分割mask。
下面介绍每个模块的具体细节。
图像的编码器其实很简单,就是一个简单的ViT结构,它的目的就是用于图像的特征提取,作者也说,对于image encoder来说可以是任何网络结构,其实可以选择多种backbone,ViT只是其中一种。
其基本流程和ViT一样,patch embeding(取patch)—> add position embeding —> transormer block —> conv(降低通道数)。 整个SAM模型在该部分耗费了较大的计算量。
提示词编码器用于完成prompt的特征编码。针对prompt,作者定义了sparse和dense两种属性。
sparse:点、边框、文本
dense:掩码mask
点:如果prompt是点,其映射由两个部分相加组成,一个是位置编码(用空间坐标乘以高斯分布的向量来描述位置)。另一部分是一个描述当前点是前景还是背景特征的可学习的一维向量。
边框:如果prompt是边框,那边框的映射也是由两个部分相加组成,第一部分是左上和右下两个点的位置编码,第二部分是一组一维向量用来描述这个点是“左上”还是“右下”。
掩码mask:点和边框属于sparse prompt,对于mask来说,**在输入prompt encoder之前,先把mask下采样4倍,通过卷积再下采样4倍(尺寸缩小16倍)。最后通过1x1卷积提升通道数量。**如果没有提供mask,也就是我们实际inference时候的场景,这个结构会直接返回一个描述“没有mask”特征的特征图。
1)prompt embedding
在prompt embedding进入decoder之前,首先concat了一组可学习的output tokens,output tokens由两个部分构成 iou token 和 mask token:
iou token:iou token会在后面用于预测iou scores,它受到模型计算出的iou与模型计算出的mask与GT实际的iou之间的MSE loss监督;
mask token:参与预测最终的mask。mask受到focal loss和dice loss 20:1的加权组合监督。
个人感觉output tokens可以理解成对模型的额外约束,output tokens参与构成模型的最终输出且有loss对其进行监督。
2)image embedding
image embedding在进入decoder之前也要进行一步操作:dense prompt由于包含密集的空间信息,与image embedding所在的特征空间一致性更高,所以直接与image embedding相加融合。因为后面要与prompt做cross attention融合,这里还要先算一下image embedding的位置编码。
3)decode
接下来{image embedding,image embedding的位置编码,tokens}进入一个两层transformer结构的decoder做融合。其中image embedding主要用做cross-attention中的k v—对应图中绿线, tokens作为q—对应图中紫线(cross-attention存在于图中的 token to image attn 和 image to token attn)。
末尾的2x conv trans为两层kernel_size=2, stride=2的转置卷积,会进行上采样到4x大小(由于是4x降采样原图的大小),产生最终的image embedding,并与mask token做矩阵乘法。最后,别对mask的预测和iou预测进行监督,反向传播,更新参数。
由于互联网上的分割掩码并不丰富,构建了一个数据引擎来构建数据,数据引擎分为三个阶段:
1)模型辅助手动标注: SAM 协助标注者对掩码进行标注,类似于经典的交互式分割设置
通过单击前景/背景对象点来标记mask。 可以使用像素精确的“画笔”和“橡皮擦”工具来细mask。 我们的模型辅助注释直接在浏览器内实时运行(使用预先计算的图像嵌入),从而实现真正的交互式体验。 我们建议注释者标记他们可以命名或描述的对象,但不收集这些名称或描述。
在此阶段开始时,使用常见的公共分割数据集对 SAM 进行训练。 经过足够的数据注释后,仅使用新注释的mask重新训练 SAM。 随着收集到的mask越来越多,图像编码器从 ViT-B 扩展到 ViT-H,并且其他架构细节也不断发展; 我们总共重新训练了模型 6 次。 随着模型的改进,每个mask的平均注释时间从 34 秒减少到 14 秒。 随着 SAM 的改进,每个图像的平均mask数量从 20 个增加到 44 个mask。 总的来说,我们在这个阶段从 120k 图像中收集了 430 万个mask。
2)半自动标注: SAM 可以通过提示可能的对象位置来自动为对象子集生成掩码,标注者专注于剩余对象的标注,从而有助于增加掩码多样性
在这个阶段,我们的目标是增加面具的多样性,以提高我们的模型分割任何东西的能力。 为了将注释者集中在不太突出的对象上,我们首先自动检测mask。 然后,我们向注释者提供了预先填充了这些mask的图像,并要求他们注释任何其他未注释的对象。 为了检测mask,我们使用通用的“对象”类别在所有第一阶段掩模上训练了边界框检测器。 在此阶段,我们在 180k 图像中额外收集了 590 万个mask(总共 1020 万个mask)。 与第一阶段一样,我们定期根据新收集的数据重新训练我们的模型(5 次)。 每个mask的平均注释时间回升至 34 秒(不包括自动mask),因为这些对象的标记更具挑战性。
3)全自动标注:人工标注者使用规则的前景点网格提示 SAM,平均每张图像生成 100 个高质量掩码
在最后阶段,标注是全自动的。 首先,在这个阶段开始时,我们收集了足够的mask来极大地改进模型,包括上一阶段的各种mask。 其次,到这个阶段,我们已经开发了歧义感知模型,即使在歧义情况下,它也使我们能够预测有效的mask。
具体来说,我们使用 32×32 规则点网格提示模型,并为每个点预测一组可能对应于有效对象的mask。 使用歧义感知模型,如果一个点位于部分或子部分上,我们的模型将返回子部分、部分和整个对象。 我们模型的 IoU 预测模块用于选择置信mask; 此外,我们仅识别和选择稳定的mask。 最后,在选择置信且稳定的mask后,我们应用非极大值抑制(NMS)来过滤重复项。 为了进一步提高较小mask的质量,我们还从放大图像裁剪下来。 我们对数据集中的所有 1100 万张图像应用了全自动掩模生成,总共生成了 1.1B 个高质量掩模。
Segment Anything 10 亿掩码 (SA-1B) 数据集是迄今为止最大的标记分割数据集。 它专为高级分割模型的开发和评估而设计。庞大的数据量有助于模型学习复杂的模式和表示,使其能够在不同的分割任务上实现最先进的性能。
我们认为数据集将成为训练和微调未来通用模型的重要组成部分。 这将使他们能够在不同的分割任务中取得卓越的表现。 目前,该数据集仅在研究许可下可用。数据集已经用高质量的掩码仔细注释,导致更准确和详细的分割结果。 在 SA-1B 数据集的 Responsible AI (RAI) 分析中,调查了地理和收入分配中潜在的公平问题和偏见。我们认为 SA-1B 数据集将进入计算机视觉名人堂(与 COCO、ImageNet 和 MNIST 等著名数据集一起)作为未来计算机视觉分割模型开发的资源。(牛!!!)
SA-1B 数据集的独特之处在于:数据集经过精心策划,涵盖广泛的领域、对象和场景,确保模型可以很好地泛化到不同的任务。 它包括来自各种来源的图像,例如自然场景、城市环境、医学图像、卫星图像等。这种多样性有助于模型学习分割具有不同复杂性、规模和上下文的对象和场景。
整体上来说,SAM的模型结构说不上十分复杂,但其令人惊人的数据工程和训练方式实在让人赞叹!!!
Segment Anything Model (SAM) 真正代表了计算机视觉领域的突破性发展,完成了promptable segmentation任务。 通过利用可提示的分割任务,SAM 可以使用提示工程来适应各种下游分割问题,或AI辅助标注。
另外SAM-1B的数据集也相当优秀,为以后的分割任务带来巨大潜力。SAM这种创新方法与迄今为止最大的标记分割数据集 (SA-1B) 相结合,使 SAM 能够在各种分割任务中实现最先进的性能。
Respect!!!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。