赞
踩
训练现有技术的计算机视觉系统来预测一组固定的预定对象类别。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从图像的原始文本中学习是一种很有前途的选择,它利用了更广泛的监督来源。
实验证明,在从互联网上收集的4亿对(图像、文本)的数据集上,预测哪一个字幕与哪一幅图像一起使用的简单预训练任务是从头开始学习SOTA图像表示的一种有效且可扩展的方法。
在预先训练之后,使用自然语言来参考学习到的视觉概念(或描述新概念),从而使模型能够零样本转移到下游任务。文章通过在30多个不同的现有计算机视觉数据集上进行基准测试来研究这种方法的性能,这些数据集涵盖了OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务。
该模型不平凡地转移到大多数任务,并且在不需要任何数据集特定训练的情况下,通常与完全监督的基线具有竞争力。例如,在ImageNet零样本上匹配原始ResNet-50的精度,而无需使用它所训练的128万个训练示例中的任何一个。
代码地址https://github.com/OpenAI/CLIP
在过去几年里,直接从原始文本中学习的预训练方法彻底改变了NLP.
任务不可知的目标,如自回归和掩蔽语言建模,已经在计算、模型容量和数据方面扩展了许多数量级,稳步提高了能力。“文本到文本”作为标准化输入输出接口的开发使任务无关架构能够零样本传输到下游数据集,从而消除了对专门输出头或数据集特定定制的需要。像GPT-3这样的旗舰系统现在在许多具有定制模型的任务中具有竞争力,同时几乎不需要数据集特定的训练数据。
这些结果表明,在网络规模的文本集合中,现代预训练方法可获得的聚合监督超过了高质量的人群标记NLP数据集。然而,在其他领域,如计算机视觉,在人群标记的数据集(如ImageNet)上预训练模型仍然是标准做法。
直接从网络文本中学习的可扩展预训练方法能否在计算机视觉领域取得类似的突破?之前的工作令人鼓舞。
20多年前,Mori等人(1999)通过训练一个模型来预测与图像配对的文本文档中的名词和形容词,探索改进基于内容的图像检索。Quattoni等人(2007)证明,通过在训练用于预测与图像相关的字幕中的单词的分类器的权重空间中进行流形学习,可以学习更高效的图像表示。Srivastava和Salakhuttinov(2012)通过在低级别图像和文本标签特征之上训练多模式深度玻尔兹曼机来探索深度表示学习。
Joulin等人(2016)对这一工作进行了现代化改造,并证明经过训练预测图像字幕中单词的细胞神经网络可以学习有用的图像表示。
他们将YFCC100M数据集(Thomee等人,2016)中图像的标题、描述和标签元数据转换为一个单词袋多标签分类任务,并表明预训练AlexNet(Krizhevsky等人,2012)来预测这些标签学习了类似于基于ImageNet的转移任务预训练的表示。李等(2017)然后将这种方法扩展到预测短语n-grams以及单个单词,并证明了他们的系统将零样本转移到其他图像的能力通过基于学习的视觉n-gram的字典对目标类进行评分并预测得分最高的类来对数据集进行分类。最近,VirTex(Desai&Johnson,2020)、ICMLM(Bulent-Sariyildiz et al,2020)和ConVIRT(Zhang et al.,2020)采用了更新的架构和预训练方法,展示了基于转换器的语言建模、掩蔽语言建模和对比目标从文本中学习图像表示的潜力。
尽管作为概念的证明令人兴奋,但使用自然语言监督进行图像表示学习仍然很少见。
这可能是因为在通用基准测试上的表现远低于其他方法。
例如,Li等人(2017)在零样本设置下,在ImageNet上的准确率仅为11.5%。这远低于现有技术的88.4%的准确率(Xie等人,2020)。它甚至低于经典计算机视觉方法50%的准确率(Deng等人,2012)。相反,使用范围更窄但目标明确的弱监管提高了绩效。
Mahajan等人(2018)表明,预测Instagram图像上与ImageNet相关的标签是一项有效的预训练任务。当微调到ImageNet时,这些预先训练的模型将准确度提高了5%以上,并提高了当时的整体技术水平。
Kolesnikov等人(2019)和Dosovitskiy等人(2020)也通过预训练模型来预测噪声标记的JFT-300M数据集的类别,在更广泛的转移基准集上证明了巨大的收益。
这一系列工作代表了当前在从有限数量的监督“金标签”中学习和从几乎无限数量的原始文本中学习之间的务实中间立场。然而,这也不无疑问。两个作品都经过精心设计,并在工艺限制下,其监督类别分别为1000和18291。
自然语言能够通过其普遍性来表达并监督更广泛的视觉概念。这两种方法还使用静态softmax分类器来执行预测,并且缺乏用于动态输出的机制。这严重削弱了他们的灵活性,限制了他们的“零样本”能力。
这些弱监督模型与最近直接从自然语言学习图像表示的探索之间的一个关键区别是规模。而Mahajan等人(2018)和Kolesnikov等人(2019)在数百万到数十亿张图像上训练了他们的模型,VirTex、ICMLM和ConVIRT在一二十万张图像上进行了训练。在这项工作中,我们缩小了这一差距,并大规模研究了在自然语言监督下训练的图像分类器的行为。
借助互联网上大量公开的这种形式的数据,本文创建了一个4亿对(图像、文本)的新数据集,并证明了从头开始训练的ConVIRT的简化版本,我们称之为CLIP,用于对比语言图像预训练,是一种从自然语言监督中学习的有效方法。通过训练一系列跨越近2个数量级计算的八个模型来研究CLIP的可扩展性,并观察到传输性能是一个平滑可预测的计算函数(Hesness等人,2017;Kaplan等人,2020)。我们发现,CLIP与GPT家族类似,在预训练期间学习执行一系列任务,包括OCR、地理定位、动作识别和许多其他任务。
通过在30多个现有数据集上对CLIP的零样本传输性能进行基准测试来衡量这一点,并发现它可以与先前的特定于任务的监督模型相竞争。通过线性探针表示学习分析证实了这些发现,并表明CLIP优于最佳公开可用的ImageNet模型,同时计算效率更高。同时还发现,零样本CLIP模型比同等精度监督的ImageNet模型更具鲁棒性,这表明对任务识别模型的零样本评估更能代表模型的能力。这些结果具有重大的政策和伦理影响。
文章考虑图像编码器的两种不同架构。首先,我们使用ResNet-50(He等人,2016a)作为图像编码器的基本架构,因为它被广泛采用,并且性能得到了验证。作者使用He等人(2019)的ResNetD改进和Zhang(2019)中的抗锯齿rect-2模糊池对原始版本进行了几次修改。还用注意力汇集机制取代了全局平均汇集层。注意力池被实现为单层“变压器式”多头QKV注意力,其中查询以全局平均池为条件图像的表示。
对于第二种架构,我们对最近引入的视觉转换器(ViT)进行了实验(Dosovitskiy等人,2020)。我们密切关注它们的实现,只需对转换器之前的组合补丁和位置嵌入添加额外的层规范化进行微小修改,并使用稍微不同的初始化方案。
因此imge encoder试了ResNet和vision transformer的。
文本编码器是一个Transformer(V aswani等人,2017),具有Radford等人(2019)中描述的架构修改。作为基本尺寸,我们使用了一个63M参数的12层512宽模型,带有8个注意力头。转换器对具有49152字典大小的文本的小写字节对编码(BPE)表示进行操作(Sennrich等人,2015)。为了计算效率,最大序列长度上限为76。文本序列用[SOS]和[EOS]标记括起来,并且变换器的最高层在[EOS]符号处的激活被视为文本的特征表示,该特征表示被层归一化,然后线性投影到多模式嵌入空间中。在文本编码器中使用了掩蔽的自我注意,以保持使用预先训练的语言模型初始化或添加语言建模作为辅助目标的能力,尽管这方面的探索仍有待于未来的工作。
因此text encoder是用了transformer
因此预训练的核心伪代码如下:
这篇文章提出的预训练模型CLIP就是在多模态领域(文字和图像)的预训练模型,和BERT在NLP中差不多。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。