赞
踩
目标任务:
以往的研究主要是利用CLIP特征作为一种全局图像表示, 本文主要探索预训练的CLIP模型对于像素级预测任务的潜在优势.
CLIP的优势: 来自于复杂场景图像和对应的自然语言描述的联合学习过程.
尝试最小化修改CLIP, 以用于像素级密集预测任务, 尤其是语义分割.
这一版本的模型不需要额外的训练和微调. 完全基于CLIP的预训练参数.
图像特征提取: 直接从CLIP图像编码器提取特征, 即_最后一个attention层中的value特征_. 这里图像编码器输出用作整个图像的综合表征, 作者们认为这是因为在每个空间位置计算的 已经捕获了丰富的局部语义响应, 他们与文本嵌入中的token很好地对应.
分割权重设置: 用于密集预测的最终的分类器本质上是1x1卷积, 这里使用固定的CLIP文本编码器获得文本embedding, 并将其作为分类器.
额外的无需训练的改进技术:
Key Smoothing: 在图像编码器最后一层的attention层中, 计算不同patch的key特征之间的相似度, 用于平滑预测. 这里认为Key可以看做是对patch自身的描述, 可以用于表示不同patch之间的相似度.
Prompt Denoising: 移除图像中不太可能存在的类别prompt(如果在所有空间位置的类别置信度小于0.5则移除对应的目标类别). 随着干扰因素的减少, 预测变得更加准确.
基于特定的失败实验得到的结论:
由于完全基于CLIP, 这一版本从而获得了如下好处:
MaskCLIP 完全依赖于CLIP, 所以其分割能力也因此受限. 为了放缩架构约束, 从而可以利用现有的更有效的结构, 例如DeepLab, 这里将 MaskCLIP 仅用于训练阶段, 作为一个更有效的注释工具来提供高质量的伪标签用于目标模型的训练. 由此引入了伪标签和自训练机制.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。