当前位置:   article > 正文

CLIP概述

CLIP概述

Learning Transferable Visual Models From Natural Language Supervision(使用自然语言的监督信号训练一个可迁移的视觉模型)

Abstract

目前的视觉模型通过一些预定义好的标签集合作为监督信号进行训练。这类做法局限于当前数据集,因此泛化性能差。出于这一理由,从文本当中获取监督信号,在四亿个图像文本对上进行无监督学习。

零样本学习,在超过30个数据集上取得了不错的性能(迁移能力强)。

CLIP的魅力在于不需要预定的标签,可以知道语句中是否存在图像内的物体。

下游任务包含分类、检测、分割、风格迁移、视频检索…

Introduction and Motivating Work

自然语言中已经存在大规模的、通过自监督训练的模型,并用于下游任务(BERT、GPT)。

上述模型证明了这些模型的性能优于手工标注的数据集训练下的模型。然而,视觉仍然是在Imagenet上进行有监督的训练。

过去有工作在尝试解决这一个问题,比如VirTex、ICMLM和ConVIRT。这些工作的性能一般,但是方法很好。

为了得到更好的、可落地的效果,部分工作转向增加自然语言的弱监督学习。这一类方法只是更进一步地挖掘了数据中的信息,依然没有摆脱特定数据集的局限性。

本文从最初的工作再出发,扩展了模型的规模和数据的规模,显著提升它们的性能,即CLIP,是ConVIRT的简化版本。

作者发现,迁移学习的效果和模型的规模呈现正相关。

实验分为两方面:

  1. 零样本学习下的效果有竞争力。
  2. 为了进一步验证CLIP提取特征的有效性,本文冻住Encoder,增加分类头进行有监督的学习,效果更好(linear-probe representation learning analysis)。

Approach

Natural Language Supervision

为什么要用自然语言的监督信号训练视觉模型?

  1. 标注过程复杂,成本高昂,数据规模有限;
  2. 视觉、文字绑定,学到的是多模态特征,迁移性更强。

Creating a Suffciently Large Dataset

吐槽现有数据集规模较小。

Selecting an Efficient Pre-Training Method

现有的预训练方法耗时久。

类似VirTex的训练方式:通过图像CNN和文本Transformer预测图像的描述。但是图像的描述方式繁多,很难有效训练。于是,转换为预测整个文本与哪个图像匹配。

请添加图片描述

随着约束的放宽,训练的效率得到显著提升(预测文本描述、预测文本特征、判断是否匹配)。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/1000482
推荐阅读
相关标签
  

闽ICP备14008679号