当前位置:   article > 正文

FCCLIP!最强视觉分割大模型!秒杀SAM系列!少样本视觉分割神器!

fcclip

概要

传统的检测网络和分割网络, 在开源数据集上效果很好,依赖于大量的有label的数据集。然而,实际视觉项目中,数据集不足数据集难获取是一种常态,少样本的视觉检测分割方法显得尤为重要。 视觉大模型可以很好的解决这一问题,视觉大模型可以用很少的数据量达到很好的效果。 在分割任务方面,FC-CLIP模型相比SAM系列有明显的性能及效果优势,作者详细介绍一下FC-CLIP模型。
Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP
FC-CLIP论文链接:https://arxiv.org/abs/2308.02487
FC-CLIP官方github代码:https://github.com/bytedance/fc-clip

整体架构流程

首先看一下网络结构图
在这里插入图片描述

  1. 论文给出的网络结构图是训练和推理合在一起的网络结构图。
    训练的时候out-vocab branch是不参与的, 只有in-vocab branch参与
    推理的时候in-vocab branch 和 out-vocab branch是一起参与的。

  2. FC-CLIP 中的CNN-based-CLIP 模块采用的是 clip-convnext系列模型,在整个训练过程中是frozen的,实际训练只更新pixel decoder模块和mask decoder模块。

  3. 之所以用CNN系列的clip,而不用transformer系列的clip是因为,分割网络通常需要大尺寸的input_size(例如1024), 而vit系列的clip开源模型通常是224、336的。并且由于position embedding的存在,使得clip-vit系列模型 在大尺度上表现极差,论文也有明确实验证明这一点。
    在这里插入图片描述

  4. CNN的clip结构在部署方面 对比 transformer系列模型有很大优势,即便同等flops下面, CNN的模型运行速度更快。

  5. 论文给出了FC-CLIP(resnet系列和convnext系列的结果),convnext fc-clip具有较大优势,如对模型轻量化有需求,可以考虑convnext-base fc-clip,这是一个比较好的选择。

  6. 论文的结果在ADE20k数据集上超过了其他的maskclip等视觉大模型。
    在这里插入图片描述

  7. 作者在业务数据集上用200张训练图片 就超过了maskrcnn模型20000张图片训练的效果,这就是视觉大模型在少样本情况下的作用

小结

视觉大模型在少样本的情况下,有很大的优势,在缺乏数据的情况下,是视觉任务完美的解决方案。在分割类任务,FC-CLIP模型是首选。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/517928
推荐阅读
相关标签
  

闽ICP备14008679号