当前位置:   article > 正文

超越 CLIP 的视觉-语言模型:Scaling Up Visual and Vision-Language Representation Learning_scaling up 模型

scaling up 模型

Scaling Up Visual and Vision-Language Representation Learning

论文地址:

ICML 2021: https://arxiv.org/abs/2102.05918

主要工作:

在本文中,作者利用了超过10亿对图像-文本对的噪声数据集,该数据集在 Conceptual Captions 数据集中无需昂贵的过滤或后处理步骤即可获得,并使用了一个简单的双编码器架构学习了使用对比性损失来对齐图像和文本对的视觉和语言表示。

该算法不仅在 ImageNet 和 VTAB 等图像分类数据集上取得了 SOTA 的精度,而且在他们的下游任务(MSCOCO 等)以及零镜头分类任务上表现也很突出。同时该算法也支持跨模态的文本-图像对的搜索。

图像和文本编码器是通过对比损失(表述为标准化的 softmax)学习的,该损失将匹配图像文本对的嵌入推在一起,同时将不匹配图像文本对的嵌入分开。

在这里插入图片描述

数据集:

从训练数据集中随机采样的示例图像-文本对,明显嘈杂的文本注释用斜体标注:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/809101
推荐阅读
相关标签
  

闽ICP备14008679号