赞
踩
目前的视觉模型通过一些预定义好的标签集合作为监督信号进行训练。这类做法局限于当前数据集,因此泛化性能差。出于这一理由,从文本当中获取监督信号,在四亿个图像文本对上进行无监督学习。
零样本学习,在超过30个数据集上取得了不错的性能(迁移能力强)。
CLIP的魅力在于不需要预定的标签,可以知道语句中是否存在图像内的物体。
下游任务包含分类、检测、分割、风格迁移、视频检索…
自然语言中已经存在大规模的、通过自监督训练的模型,并用于下游任务(BERT、GPT)。
上述模型证明了这些模型的性能优于手工标注的数据集训练下的模型。然而,视觉仍然是在Imagenet上进行有监督的训练。
过去有工作在尝试解决这一个问题,比如VirTex、ICMLM和ConVIRT。这些工作的性能一般,但是方法很好。
为了得到更好的、可落地的效果,部分工作转向增加自然语言的弱监督学习。这一类方法只是更进一步地挖掘了数据中的信息,依然没有摆脱特定数据集的局限性。
本文从最初的工作再出发,扩展了模型的规模和数据的规模,显著提升它们的性能,即CLIP,是ConVIRT的简化版本。
作者发现,迁移学习的效果和模型的规模呈现正相关。
实验分为两方面:
为什么要用自然语言的监督信号训练视觉模型?
吐槽现有数据集规模较小。
现有的预训练方法耗时久。
类似VirTex的训练方式:通过图像CNN和文本Transformer预测图像的描述。但是图像的描述方式繁多,很难有效训练。于是,转换为预测整个文本与哪个图像匹配。
随着约束的放宽,训练的效率得到显著提升(预测文本描述、预测文本特征、判断是否匹配)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。