赞
踩
ICML 2021: https://arxiv.org/abs/2102.05918
在本文中,作者利用了超过10亿对图像-文本对的噪声数据集,该数据集在 Conceptual Captions 数据集中无需昂贵的过滤或后处理步骤即可获得,并使用了一个简单的双编码器架构学习了使用对比性损失来对齐图像和文本对的视觉和语言表示。
该算法不仅在 ImageNet 和 VTAB 等图像分类数据集上取得了 SOTA 的精度,而且在他们的下游任务(MSCOCO 等)以及零镜头分类任务上表现也很突出。同时该算法也支持跨模态的文本-图像对的搜索。
图像和文本编码器是通过对比损失(表述为标准化的 softmax)学习的,该损失将匹配图像文本对的嵌入推在一起,同时将不匹配图像文本对的嵌入分开。
从训练数据集中随机采样的示例图像-文本对,明显嘈杂的文本注释用斜体标注:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。