当前位置:   article > 正文

多模态预训练模型CLIP:中文版本开放使用_hugface 上面clip不能应用于中文吗

hugface 上面clip不能应用于中文吗

在这里插入图片描述
公众号原文(关注公众号,获取一手论文咨询):
多模态预训练模型CLIP:中文版本开放使用
中文项目地址:
https://github.com/real-brilliant/chinese_clip_in_tensorflow


01 背景

CLIP是OpenAI发布的一款多模态预训练模型,其优异的泛化能力和图文对齐能力已经在很多场景大放异彩。
虽然大家都知道CLIP好用,但是模型的预训练语料为<英文, 图片>对齐数据,难以迁移到中文场景。
好在我们有知识蒸馏这个”神器“,利用英文&多语种平行语料+知识蒸馏,迫使多语种BERT的语义空间与CLIP_英文BERT的语义空间对齐,从而实现英文CLIP到多语种CLIP的迁移

02 使用

本公众号开放了多语种CLIP的tensorflow版本,基本只需要tf>=1.15即可使用,相对来说还是十分方便的。
模型可以通过git提供的链接进行下载,目前仅支持BERT+ViT-32的版本,也是CLIP论文中表现最好的版本。
基本使用方式:

  1. 实例化clip_tf.py中的Predictor
  2. 利用predictor分别提取文本和图片的l2_embedding特征
  3. 计算余弦距离得到图文相似度分数
  4. 根据任务类型,判断是否需要对图list/文list进行softmax归一(注意,如需进行softmax计算,需要先将分数除以temperature(0.01),例如(0.23, 0.19) -> (23, 19)后再进行softmax)

在clip_tf.py中也有相应的调用范例(simple_test()),直接运行clip_tf.py即可可视化一组文本与一组图片的归一化相似度分数(如下图),可以看出,图文相似度矩阵基本在对角线位置取得最大值,是符合图/文真实匹配度预期的
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/387652
推荐阅读
相关标签
  

闽ICP备14008679号