当前位置:   article > 正文

分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型...

open vocabulary segment anything

点击上方“AI遇见机器学习”,选择“星标”公众号

第一时间获取价值内容

91c69356567e7f4c47c7aa821e860714.gif

前几日,Meta 推出了「分割一切」AI 模型 Segment Anything,令网友直呼 CV 不存在了?!而在另一篇被 CVPR 2023 收录的论文中,Meta、UTAustin 联合提出了新的开放语言风格模型(open-vocabulary segmentation, OVSeg),它能让 Segment Anything 模型知道所要分隔的类别。

从效果上来看,OVSeg 可以与 Segment Anything 结合,完成细粒度的开放语言分割。比如下图 1 中识别花朵的种类:sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

48f00ed610bfc638683f438e41cccabb.jpeg

  • 即刻体验:https://huggingface.co/spaces/facebook/ov-seg

  • 项目地址:https://jeff-liangf.github.io/projects/ovseg/

研究背景

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域,这些区域在训练期间可能没有被看到。最近的两阶段方法首先生成类别不可知的掩膜提案,然后利用预训练的视觉-语言模型(例如 CLIP)对被掩膜的区域进行分类。研究者确定这种方法的性能瓶颈是预训练的 CLIP 模型,因为它在掩膜图像上表现不佳。

为了解决这个问题,研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。研究者使用 CLIP 将掩膜图像区域与图像字幕中的名词进行匹配,从而收集训练数据。与具有固定类别的更精确和手动注释的分割标签(例如 COCO-Stuff)相比,研究者发现嘈杂但多样的数据集可以更好地保留 CLIP 的泛化能力。

除了对整个模型进行微调之外,研究者还使用了被掩膜图像中的「空白」区域,使用了他们称之为掩膜提示微调的方法。

实验表明,掩膜提示微调可以在不修改任何 CLIP 权重的情况下带来显著的改进,并且它可以进一步改善完全微调的模型。特别是当在 COCO 上进行训练并在 ADE20K-150 上进行评估时,研究者的最佳模型实现了 29.6%的 mIoU,比先前的最先进技术高出 8.5%。开放式词汇通用模型首次与 2017 年的受监督专家模型的性能匹配,而不需要特定于数据集的适应。

01d5100fdc2367d0b34cbfb90f41711e.png

论文地址:https://arxiv.org/pdf/2210.04150.pdf

论文解读

动机

研究者的分析表明,预训练的 CLIP 在掩膜建议上表现不佳,成为两阶段方法的性能瓶颈。

c14435489596e629ac81a49b59012374.png

  1. CLIP 是使用很少的数据增强在自然图像上进行预训练的。

  2. 两阶段的开放词汇语义分割方法首先生成类别不可知的掩膜建议,然后利用预训练的 CLIP 进行开放词汇分类。CLIP 模型的输入是裁剪的掩膜图像,与自然图像存在巨大的领域差距。

  3. 我们的分析表明,预训练的 CLIP 在掩膜图像上表现不佳。

方法

研究者的模型包括一个分割模型(例如 MaskFormer)和一个 CLIP 模型

91ade4df94b49ddb0cda70fc330578e5.png

他们首先训练修改后的 MaskFormer 作为开放词汇分割的基线(第 3.1 节),然后从图像标题中收集多样的掩膜-类别对(第 3.2 节),并适应 CLIP 用于掩膜图像(第 3.3 节)。

结果

研究者首次展示开放词汇的通用模型可以在没有数据集特定调整的情况下与受监督的专业模型的性能相匹配

a384ce3e5370fec5aedc5cb579ceaac3.png

更多分类示例如下所示。

e3c5e3ed6f0f9cc6428333cb076b0e16.jpeg

362ff7f487990d1aa80c1f6f1cbd7a1b.png

欢迎大家加入我的这个”AIGC与GPT“知识星球,价格便宜,已经80+人!

50afd931b13352fcfc9134982873eb06.jpeg

这里会保存我收集的各种关于AIGC的资源和资料,包括AI绘画-midjourney,ChatGPT, GPT-4,百度-文心一言的各种资料。会保持持续更新,欢迎大家自行拿取。(网盘地址和密码在知识星球自取!)ff6098480b401be5da9e824406203234.png

bcb2cddc588a5161ac50c38f3e79d4f8.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/761686
推荐阅读
相关标签
  

闽ICP备14008679号