当前位置:   article > 正文

VLM 系列——中文CLIP——论文解读_clip 论文 中文

clip 论文 中文

一、概述

1、是什么

    CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》,训练使用2亿 图-文 对的对比学习(不是LLM的预测下一个token),是一个双塔模型(图像和文本各子拥有一个编码器)。由于对齐了图像和文本特征,可以用来做:图-图(文章中没有相关测试任务)、图-文、文-图、文-文(文章中没有相关测试任务)的检索,当然 图-文 和 文-图 检索 也可以转化为zero-shot 的分类。

2、亮点

    *开源代码、模型(多个版本模型:图像编码器提供5种,参数量77-958M)、demo,并且提供用于部署的NVIDIA TensorRT和ONNX模型,比用于推理的Pytorch模型快2到10倍。
    *消融实验后验证,两阶段训练更优:使用CLIP初始化,先训练文本编码器;再联合训练。
    *在MUGE、Flickr30K-CN和COCO-CN数据集的zero-shot 和 finetune 任务上达到最先进的水平;在ELEVATER上的zero-shot分类具有竞争力的性能。

PS

    在一些场景下使用,居然ba
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/775610
推荐阅读
相关标签
  

闽ICP备14008679号