当前位置:   article > 正文

CLIP介绍_clip算法

clip算法

CLIP(Constrastive Language-Image Pre-training)是openai推出的一个基于对比学习的模型,利用文本信息训练一个可以实现zero-shot的视觉模型,迁移能力巨强。

问题背景

传统的深度学习的模型训练往往聚焦一种问题,拿检测模型来说,如果要检测安全帽,那就拿安全帽的图片来训练。但是如果要检测别的东西呢,那就又需要新的图片去训练模型,每一次都是在重复一件事情—迁移学习,重复训练。如果能一劳永逸,在一个任务下使用一个模型可以满足对所有类别的需要,那就很省事了。
CLIP是一个预训练模型,该模型拥有zero-shot能力,在文本-图像检索,图像分类,基于文本进行图像生成等任务表现极好。
Open AI认为,以往的很多深度学习模型的表现效果不好并不是模型垃圾,而是资源没有到位。如果1W数据表现不好就用10W数据去训练,2个GPU训练不好的模型可以用200个GPU来训练,换句话说,只要有钱资源到位了,什么都不是问题了。CLIP就是这样一个算法,训练数据庞大,在模型结构简单的情况下实现了zero-shot。

预训练阶段

模型的训练采用了对比学习的思想,见图1。训练数据是两类,第一类是图像,第二类是图像对应的文本。和传统视觉模型的训练不同,这里没有使用类别标签。
在这里插入图片描述
具体步骤如下:
1.输入的文本和图像分别经过各自的Encoder处理成特征向量;
2.构建关系矩阵。形如图1右边的矩阵,图1右边的矩阵中的每一个元素都是每一个图像特征向量和其他文本特征向量的余弦相似度。该矩阵中主对角线的元素都是匹配的(图像和文本特征完全对应),其他地方的元素并不匹配。
3.主对角线的余弦相似度尽可能的最大,其他地方的余弦相似度尽可能的最小。

CLIP learns a multi-modal embedding space by jointly training an image encoder and text encoder to maximize the cosine similarity of the image and text embeddings of the N real pairs in the batch while minimizing the cosine similarity of the embeddings of the N2 − N incorrect pairings.

损失函数采用对比学习中常用的InfoNCE,公式如下:
在这里插入图片描述
其中, 温度系数τ是设定的超参数,q和k可以表示相似度度量,分子部分表示正例之间的相似度,分母表示正例与负例之间的相似度。因此看出,相同类别相似度越大,不同类别相似度越小,损失就会越小。这一步得到的Encoder和Decoder用于下面的步骤。

推理阶段

推理阶段的输入有两部分,第一是提示信息;第二部分是图像。主要是看模型能否根据输入的图像输出正确的提示信息。见图2:
在这里插入图片描述
提示信息有多种,从图2中可以看到它用不同的类别替换一句话中不同的词,形成不同的标签。
输入的图片和文本经过前一步训练好的Encoder和Decoder进行编码,之后图像特征和其他文本特征相互计算相似度,选择相似度大的就是输出结果。在这句话中所填的空(图2中的dog)就是图片的类别。
论文中给出了用python写的简易过程:
在这里插入图片描述
可以看到,推理阶段的损失是交叉熵损失。
模型非常简单,但是取得的效果是非常好的。

实验结果

CLIP的高效性对比。从图3中可以看到,CLIP的采用预测单词的方式的方式进行匹配,效果提升了4倍。
图3 高效性对比
和之前的零样本学习算法相比,效果很好,CLIP大大提高了模型在三个数据集的性能。在这里插入图片描述
论文中还展示了使用监督学习训练的ResNet-50的分类器和CLIP在零样本学习的对比结果。在27个数据集上做了实验对比:
在这里插入图片描述
在27个数据集中有16个数据集CLIP的效果优于监督的ResNet50,但是有11个效果不行。DTD数据集是一种纹理数据,做纹理分类或物体计数的任务要难很多。作者推荐用基于few-shot learning的思想去做。
在这里插入图片描述
从上面的图中可以看出,零样本下的CLIP效果在63%左右,ResNet50、SimCLRv2在shot数到达16时依然没有超过zero-shot的CLIP;BiT-M和zero-shot的CLIP打成平手。Linear probe是将模型主体冻住,只微调Linear分类头。论文还做了一个表征实验,可以看出CLIP是在计算量与准确度方面平衡性做的最好的模型。
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/439271
推荐阅读
相关标签
  

闽ICP备14008679号