赞
踩
公众号原文(关注公众号,获取一手论文咨询):
多模态预训练模型CLIP:中文版本开放使用
中文项目地址:
https://github.com/real-brilliant/chinese_clip_in_tensorflow
CLIP是OpenAI发布的一款多模态预训练模型,其优异的泛化能力和图文对齐能力已经在很多场景大放异彩。
虽然大家都知道CLIP好用,但是模型的预训练语料为<英文, 图片>对齐数据,难以迁移到中文场景。
好在我们有知识蒸馏这个”神器“,利用英文&多语种平行语料+知识蒸馏,迫使多语种BERT的语义空间与CLIP_英文BERT的语义空间对齐,从而实现英文CLIP到多语种CLIP的迁移。
本公众号开放了多语种CLIP的tensorflow版本,基本只需要tf>=1.15即可使用,相对来说还是十分方便的。
模型可以通过git提供的链接进行下载,目前仅支持BERT+ViT-32的版本,也是CLIP论文中表现最好的版本。
基本使用方式:
在clip_tf.py中也有相应的调用范例(simple_test()),直接运行clip_tf.py即可可视化一组文本与一组图片的归一化相似度分数(如下图),可以看出,图文相似度矩阵基本在对角线位置取得最大值,是符合图/文真实匹配度预期的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。