赞
踩
传统的检测网络和分割网络, 在开源数据集上效果很好,依赖于大量的有label的数据集。然而,实际视觉项目中,数据集不足或数据集难获取是一种常态,少样本的视觉检测分割方法显得尤为重要。 视觉大模型可以很好的解决这一问题,视觉大模型可以用很少的数据量达到很好的效果。 在分割任务方面,FC-CLIP模型相比SAM系列有明显的性能及效果优势,作者详细介绍一下FC-CLIP模型。
Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP
FC-CLIP论文链接:https://arxiv.org/abs/2308.02487
FC-CLIP官方github代码:https://github.com/bytedance/fc-clip
首先看一下网络结构图
论文给出的网络结构图是训练和推理合在一起的网络结构图。
训练的时候out-vocab branch是不参与的, 只有in-vocab branch参与。
推理的时候in-vocab branch 和 out-vocab branch是一起参与的。
FC-CLIP 中的CNN-based-CLIP 模块采用的是 clip-convnext系列模型,在整个训练过程中是frozen的,实际训练只更新pixel decoder模块和mask decoder模块。
之所以用CNN系列的clip,而不用transformer系列的clip是因为,分割网络通常需要大尺寸的input_size(例如1024), 而vit系列的clip开源模型通常是224、336的。并且由于position embedding的存在,使得clip-vit系列模型 在大尺度上表现极差,论文也有明确实验证明这一点。
CNN的clip结构在部署方面 对比 transformer系列模型有很大优势,即便同等flops下面, CNN的模型运行速度更快。
论文给出了FC-CLIP(resnet系列和convnext系列的结果),convnext fc-clip具有较大优势,如对模型轻量化有需求,可以考虑convnext-base fc-clip,这是一个比较好的选择。
论文的结果在ADE20k数据集上超过了其他的maskclip等视觉大模型。
作者在业务数据集上用200张训练图片 就超过了maskrcnn模型20000张图片训练的效果,这就是视觉大模型在少样本情况下的作用!
视觉大模型在少样本的情况下,有很大的优势,在缺乏数据的情况下,是视觉任务完美的解决方案。在分割类任务,FC-CLIP模型是首选。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。