Paper小计：Learning Transferable Visual Models From Natural Language Supervision

作者：小丑西瓜9 | 2024-04-19 08:57:17

踩

learning transferable visual models from natural language supervision

Abstract

参考自然语言学习视觉概念以及zero shot。

Introduction and Motivating Work

nlp领域与任务无关的架构能够将零化转移到下游数据集。这些结果表明，在网络规模的文本集合中，现代预训练方法的聚合监督超过了高质量的群体标记NLP数据集。

图1。总结一下我们的方法。标准图像模型联合训练图像特征提取器和线性分类器来预测某些标签，而CLIP联合训练图像编码器和文本编码器来预测一批（图像、文本）训练示例的正确配对。在测试时，学习到的文本编码器通过嵌入目标数据集的类的名称或描述来合成一个零镜头的线性分类器。

几个关键：zero shot;将nlp cv结合；数据规模

Approach

超大的数据集：4亿对text image（对比学习更加高效）

图像编码：尝试了残差和视觉transformer

文本编码：transformer

Analysis

零镜头CLIP的性能优于少镜头线性探头。零镜头CLIP与在相同特征空间上训练的4次线性分类器的平均性能相匹配，并且几乎在公开模型中与16次线性分类器的最佳结果相匹配。

Data Overlap Analysis

在一个非常大的互联网数据集上进行预训练的一个问题是与下游事件的意外重叠。

Broader Impacts

模型的能力、缺点和偏见的描述的研究。

Limitations

1.性能有待提升（若要提升到很高的性能，数据规模的提升已经让硬件支撑不下去）

2.数据集的选择有点迎合clip

3.复杂任务的表现不好

Related Work

Conclusion

我们研究了是否有可能将任务不可知的网络规模预训练的成功转移到另一个领域。我们发现，采用这一公式会导致在计算机视觉领域出现类似的行为，并讨论了这一研究领域的社会意义。为了优化其训练目标，CLIP模型在训练前学习执行各种各样的任务。然后，可以通过自然语言提示，使零射击转移到许多现有数据集。在足够的规模下，这种方法的性能可以与特定任务的监督模型竞争，尽管仍有很大的改进空间。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/450912