VLM 系列——中文CLIP——论文解读_chinese clip 的输出维度是多少维

作者：木道寻08 | 2024-08-06 00:48:57

踩

chinese clip 的输出维度是多少维

一、概述

1、是什么

CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》，训练使用2亿图-文对的对比学习（不是LLM的预测下一个token），是一个双塔模型（图像和文本各子拥有一个编码器）。由于对齐了图像和文本特征，可以用来做：图-图（文章中没有相关测试任务）、图-文、文-图、文-文（文章中没有相关测试任务）的检索，当然图-文和文-图检索也可以转化为zero-shot 的分类。

2、亮点

*开源代码、模型（多个版本模型：图像编码器提供5种，参数量77-958M）、demo，并且提供用于部署的NVIDIA TensorRT和ONNX模型，比用于推理的Pytorch模型快2到10倍。

*消融实验后验证，两阶段训练更优：使用CLIP初始化，先训练文本编码器；再联合训练。

*在MUGE、Flickr30K-CN和COCO-CN数据集的zero-shot 和 finetune 任务上达到最先进的水平；在ELEVATER上的zero-shot分类具有竞争力的性能。

PS

在一些场景下使用，居然ba

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/木道寻08/article/detail/935059