当前位置:   article > 正文

中国提出的分割天花板 | 精度相当,速度提升50倍!

fast sam基于yolov8

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

2a6aca44b29c51146f2275763f30f8e6.gif

c5cb138d6dcefd730a665c52a3ab6c4d.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

81b9d7738210ca32e3e75cf85c919096.png

论文地址:https://arxiv.org/pdf/2306.12156v1.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

最近提出的分割任意模型(segment anything model,SAM)在许多计算机视觉任务中产生了重大影响。

1343e9ee1d6d5b37ec65044b021e5071.png

8052d042f690cc1b8ffaa9efa3ba7a66.gif

01

概要简介

SAM它正在成为许多高级任务的基础步骤,如图像分割、图像字幕和图像编辑。然而,其巨大的计算成本使其无法在行业场景中得到更广泛的应用。计算主要来自高分辨率输入的Transformer架构。

在今天分享中,研究者为这项基本任务提出了一种性能相当的加速替代方法。通过将任务重新表述为片段生成和提示,我们发现具有实例分割分支的常规CNN检测器也可以很好地完成该任务。具体而言,我们将该任务转换为研究充分的实例分割任务,并仅使用SAM作者发布的SA-1B数据集的1/50直接训练现有的实例分割方法。使用我们的方法,我们在50倍的运行时速度下实现了与SAM方法相当的性能。我们给出了足够的实验结果来证明它的有效性。

85e5e53b113e8ffaee086e5fb4ea4306.jpeg

61d9928c0cc6c7c03bf4985378932e1e.png

2ef93e2b440a1e539621b4bc236501dc.gif

02

背景介绍

最近提出的SAM,它被视为一个里程碑式的愿景基础模型。它可以在各种可能的用户交互提示的引导下分割图像中的任何对象。SAM利用了在广泛的SA-1B数据集上训练的Transformer模型,这使其能够熟练地处理各种场景和对象。SAM为一项激动人心的新任务打开了大门,该任务被称为Segment Anything。这项任务,由于其可推广性和潜力,具有成为未来广泛愿景任务基石的所有条件。

然而,尽管SAM和后续模型在处理细分市场任何任务方面取得了这些进步和有希望的结果,但其实际应用仍然具有挑战性。突出的问题是与SAM架构的主要部分Transformer(ViT)模型相关的大量计算资源需求。与卷积技术相比,ViT因其繁重的计算资源需求而脱颖而出,这给其实际部署带来了障碍,尤其是在实时应用中。因此,这种限制阻碍了分段任何任务的进展和潜力。

提出的FastSAM基于YOLOv8 seg,这是一种配备了实例分割分支的目标检测器,它利用了YOLACT方法。还采用了SAM发布的广泛的SA-1B数据集。通过仅在SA-1B数据集中的2%(1/50)上直接训练该CNN检测器,它实现了与SAM相当的性能,但大大减少了计算和资源需求,从而实现了实时应用。

2a69fd605a8979c377bf050b511dca2e.jpeg 46f40edcb2d484c0fda935830cba9727.png

还将其应用于多个下游分割任务,以显示其泛化性能。在MS COCO上的面向对象任务上,在AR1000上实现了63.7,这比32×32点提示输入的SAM高1.2点,但在单个NVIDIA RTX 3090上运行速度快50倍。实时SAM对工业应用很有价值。它可以应用于许多场景。所提出的方法不仅为大量视觉任务提供了一种新的、实用的解决方案,而且速度非常快,比当前方法快几十倍或数百倍。

8ce21162175f088faac77a95823a5b53.gif

03

新框架详情

下图给出了所提出的Fast-SAM方法的概述。该方法由两个阶段组成,即所有实例分割和提示引导选择。前一阶段是基础,第二阶段本质上是面向任务的后处理。与端到端变换器不同,整体方法引入了许多与视觉分割任务相匹配的人类先验,如卷积的局部连接和感受野相关的对象分配策略。这使得它能够针对视觉分割任务进行定制,并且可以在较小数量的参数上更快地收敛。

2d7b2ef3f3700d579a81ed4cdaf2f9a9.png

检测分支输出类别和边界框,而分割分支输出k个原型(在FastSAM中默认为32)以及k个掩码系数。分割和检测任务是并行计算的。分割分支输入高分辨率特征图,保留空间细节,还包含语义信息。该映射通过卷积层进行处理,放大,然后通过另外两个卷积层输出掩码。掩码系数,类似于探测头的分类分支,范围在-1和1之间。实例分割结果是通过将掩模系数与原型相乘,然后将其相加而获得的。

Prompt-guided Selection

在使用YOLOv8成功分割图像中的所有对象或区域之后,分割任何对象任务的第二阶段是使用各种提示来识别感兴趣的特定对象。它主要涉及点提示、框提示和文本提示的使用。

Point prompt包括将选定的点与从第一阶段获得的各种遮罩进行匹配。目标是确定点所在的遮罩。与SAM类似,我们在方法中使用前地面/背景点作为提示。在前景点位于多个遮罩中的情况下,可以利用背景点来过滤出与手头任务无关的遮罩。通过使用一组前景/背景点,我们能够在感兴趣的区域内选择多个遮罩。这些遮罩将合并为一个遮罩,以完全标记感兴趣的对象。此外,我们还利用形态学运算来提高掩模合并的性能。

Box prompt长方体提示涉及在选定长方体和与第一阶段中的各种遮罩相对应的边界框之间执行并集交集(IoU)匹配。其目的是用所选框识别具有最高IoU分数的掩码,从而选择感兴趣的对象。

Text prompt在文本提示的情况下,使用CLIP模型提取文本的相应文本嵌入。然后确定相应的图像嵌入,并使用相似性度量将其与每个掩模的内在特征相匹配。然后选择与文本提示的图像嵌入具有最高相似性得分的掩码。

通过仔细实施这些提示引导选择技术,FastSAM可以从分割图像中可靠地选择感兴趣的特定对象。上述方法提供了一种实时完成任何分割任务的有效方法,从而大大提高了YOLOv8模型在复杂图像分割任务中的实用性。一种更有效的即时引导选择技术留给了未来的探索。

fcfba06df7a632b5966bcb00d333e683.gif

04

实验及可视化

015d0d8e0c6c0b0a8d74e40cf50b3937.png

Segmentation Results of FastSAM

aece9a151d21b4214285f4968c2fa051.png

SAM和Fast-SAM比较

829b8aedfe0827704fe75594c9fc52e5.png

在上图中显示了定性结果。FastSAM可以根据文本提示很好地分割对象。然而,文本到掩模分割的运行速度并不令人满意,因为每个掩模区域都需要被馈送到CLIP特征提取器中。如何将CLIP嵌入提取器组合到FastSAM的骨干网络中,仍然是关于模型压缩的一个有趣的问题。

10514ba064af504c77362c5cdbddb4ea.png

289d9d104430948575b221c25b9d0768.gif

05

亲自上手实践

基于提供的代码,自己进行了搭建。搭建流程见【计算机视觉研究院】知识星球。

6be2ce34960f24d89922e5f8360618a0.png

57ad1424488d785ebec7dac966829fb1.jpeg

b7d585ba1d48bb9e22afc7e10a041cb1.png

2bded84a856517ee16f20cd7bd28e49b.png fd544a469fb3413a8bdff2ca73300edf.png

ef5ab6031fe1a247badef898197270c9.jpeg

7f04d7bae0e44961a6ddda943c639544.png

© THE END 

转载请联系本公众号获得授权

6d1ff966e1cacd2dcba8d870700bf352.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

VX:2311123606

909a6cc0889db67104c5c364b8df8119.png

 往期推荐 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/971707
推荐阅读
相关标签