赞
踩
论文:Learning Transferable Visual Models From Natural Language Supervision
openAI在2021年2月发表对NLP和CV圈都很重要的一篇工作
主要是通过4亿个文本图片对,进行对比学习预训练,得到词和图片的embedding转换器,在图片分类zero-shot上达到很好效果,后续也可以接很多工作。
clip的github地址 openai/CLIP: Contrastive Language-Image Pretraining (github.com)
paper地址 [2103.00020] Learning Transferable Visual Models From Natural Language Supervision (arxiv.org)
clip官网 CLIP: Connecting Text and Images (openai.com)
在学习CLIP之前,我们先动手玩一玩,这里可以查看clip github上给的交互代码 在colab notebook上进行加载模型进行尝试。
我根据clip官方写的交互代码改写的colab notebook代码地址
官方分类效果图
我自己的结果
这科比模型一眼就认出来了,本身就具有名人识别功能,路飞也识别出来了,one piece还有一定概率,如果没有Luffy估计one piece概率就相对高了。
推荐大家可以看一下b站讲解视频,讲的很不错CLIP 论文逐段精读【论文精读】_哔哩哔哩_bilibili
上图为模型整体结构,其实就是文字经过一个text encoder得到句向量,这里为512维,图片经过 image encoder得到图片向量 512维,通过计算相似度,计算对称loss,将文本和图片对作为正样本,其他作为负样本进行训练,下图为loss计算伪代码
之前工作数据集主要有三个数据集:
其中前两个数据集质量很高,但都大约10w图片,而YFCC100M虽然1亿张图片,但质量较差过滤后仅剩下1500w张照片。OpenAI一看1500万数据,不够我塞牙缝的,于是下面数据集就诞生了。
WIT(WebImageText) OpenAI通过互联网构建4亿对(图片,文本)数据集,通过500,000查询,每个查询得到20,000个图像文本对。
之所以选择对比学习,而未选择预测学习,因为对比学习效率比预测高4倍左右。
当然感觉还有很多应用,直接有相关的图片和文字embedding生成器,如果再接各种生成等等其他模型,create as you want.
我认为这篇论文也是很经典的有钱人的工作,但有钱人的快乐就是那么朴素无华,效果就真的非常好,后续也成为了许多工作的基础,接下来我也再参考一些后续的工作,然后自己也做做实验,DALLE 2.0还没玩出来呢,感觉那个效果真滴好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。