赞
踩
本文根据2021年《learning transferable visual models from natural language supervision》翻译总结的,即利用自然语言学习一个可以迁移的视觉模型。
本文提出的模型为Contrastive Language-Image Pre-training,简称CLIP,即对比学习语言-图像预训练模型,是通过对比学习训练的模型。因为预训练的数据集较大,所以采用对比学习提高效率。
CLIP主要特点是zero-shot,即不需要微调fine-tune,直接用于下游模型也有很好的效果。如在ImageNet数据集上,CLIP zero-shot的准确率可以达到监督训练的ResNet-50的效果。
CLIP也是学习NLP模型GPT-3,GPT-3在NLP领域就有zero-shot的能力。
CLIP采用的数据集有4亿个(图片-文本)对。数据规模可以和训练GPT-2的匹配。这份数据是从网络上爬取整理的,我们称这份数据为WIT(WebImageText)。
CLIP虽然zero-shot能力很强,但还是需要提高,比如离最好的监督模型还有距离,只是达到了ResNet-50的水平。
如下图左边部分表示训练部分,CLIP联合训练图片-文本)对,将文本输入text encoder产生文本特征,将图片输入image encoder 产生图片特征,然后进行对比学习,如蓝色对角线部分表示文本和图片匹配的(N个),其他是不匹配的(N的平方减N个)。
下图右边是zero-shot预测,将可能分类的文本标签输入训练好的text encoder,图片也是输入训练好的image encoder,然后匹配出哪个文本标签最和图片特征相匹配。
伪代码如下:
将文本变成如下格式,丰富了文本内容,有利于模型学习。下面只列4种,实际用到了80多种。:
A photo of a {label}, a type of pet
a satellite photo of a {label}
A photo of a big {label}”
A photo of a small {label}”
Visual N-Grams是以前的一个zero-shot模型,可以看到CLIP大幅好于Visual N-Grams,不过Visual N-Grams的训练集较小。
如下图,CLIP和ResNet-50监督学习比较,可以看到大部分效果较好(绿色部分)。
和few-shot(加上线性分类层)相比也是较好的。
CLIP加上线性分类(在CLIP模型上面增加一个线性分类层,微调时CLIP模型被冻住,只训练分类层的参数),也比以前优秀的模型更好。其中CLIP vision transformers 好于CLIP ResNets。
Zero-shot CLIP也更适用于分布偏移,如不仅在imageNet数据上效果好,在imagenet-R等数据集上效果也好,而ResNet101却很差。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。