搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
黑客灵魂
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
python基础之读文件操作_python文件名.read()
2
植物大战僵尸杂交版全新版v2.1解决全屏问题_pan.quark.cnsa75e93ecb5
3
智能算法挑战赛初赛_算法创意实践挑战赛初赛试题
4
HBase基础及shell操作_hbase shell
5
发布码云代码_用码云复制代码,总是跳这个认证
6
umts是移动还是联通_网络模式中的UMTS是什么意思?
7
kafka开发环境搭建_kafka环境搭建
8
程序员下班电脑不关机的5大原因,你中招了吗?
9
3、Spark2x 基于内存的计算引擎_了解什么是基于内存的实时计算引擎
10
使用Zxing生成和解析QRCODE
当前位置:
article
> 正文
VLM 系列——中文CLIP——论文解读_clip 论文 中文
作者:黑客灵魂 | 2024-07-01 07:51:48
赞
踩
clip 论文 中文
一、概述
1、是什么
CLIP 的中文版《Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese》,训练使用2亿 图-文 对的对比学习(不是LLM的预测下一个token),是一个双塔模型(图像和文本各子拥有一个编码器)。由于对齐了图像和文本特征,可以用来做:图-图(文章中没有相关测试任务)、图-文、文-图、文-文(文章中没有相关测试任务)的检索,当然 图-文 和 文-图 检索 也可以转化为zero-shot 的分类。
2、亮点
*开源代码、模型(多个版本模型:图像编码器提供5种,参数量77-958M)、demo,并且提供用于部署的NVIDIA TensorRT和ONNX模型,比用于推理的Pytorch模型快2到10倍。
*消融实验后验证,两阶段训练更优:使用CLIP初始化,先训练文本编码器;再联合训练。
*在MUGE、Flickr30K-CN和COCO-CN数据集的zero-shot 和 finetune 任务上达到最先进的水平;在ELEVATER上的zero-shot分类具有竞争力的性能。
PS
在一些场景下使用,居然ba
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/黑客灵魂/article/detail/775610
推荐阅读
article
CLIP、Vilt、
ALBEF
、
CoCa
、
FLAVA
、
VLMO
、Beit v3、
BLIP
、
BLIP
2
...
两个ITC+两个MIM+1个ITM。ITM是基于ground truth的,必须知道一个pair是不是ground tr...
赞
踩
article
Facebook
推出
多
模态
通用
模型
FLAVA
,
吊打
CLIP
平均十个点!...
文 | 子龙编 | 智商掉了一地厉害了!作者将单一
模型
运用于三个不同领域的不同任务
,
结构简单且训练直观
,
还能有着出色的表...
赞
踩
article
吊打
CLIP
平均10个点,
Meta
多
模态
通用
模型
FLAVA
真香啊_
metaclip
参数量...
厉害了!作者将单一
模型
运用于三个不同领域的不同任务,结构简单且训练直观,还能有着出色的表现。自Transformer横空...
赞
踩
article
2020-12-18_在
clip
中
,
超过
边界
的
只能截断
为
边界
值
,
如果要把超出
边界
的
替换
为
自定义
的
...
pandas基础1.drop_duplicates方法drop_duplicates方法是对DataFrame格式
的
数据...
赞
踩
article
AI推介-多模态
视觉
语言
模型
VLMs
论文速览(arXiv方向):2024.05.01-2024.05...
医学图像识别任务因存在多种不同的病理指征而明显复杂化,这给未见标签的多标签分类带来了独特的挑战。这种复杂性凸显了对采用多...
赞
踩
article
Stable
Diffusion
WebUI linux部署问题_
openai
clip
-
vit
-l...
从报错信息看可以看出我们缺少
openai
/
clip
-
vit
-
large
-patch14所必须的一些内容,它发现本地不存在...
赞
踩
article
解决
diffusion
部署时,无法从‘
huggingface
.
co
‘下载‘
openai
/
clip
-v...
如果是使用transformers库时的报错,就在transformers/utils/hub.py的源码中,将'_de...
赞
踩
article
【
StableDiffusion
】
StableDiffusion
扩散
模型
的原理、
UNet
结构
解析...
其实,所谓的“点”,是从 572 * 572 * 1 变成了 32 * 32 * 1024,只是变小了,升维了而已经过卷...
赞
踩
相关标签
深度学习
机器学习
人工智能
python
算法
计算机视觉
facebook
语言模型
自然语言处理
视觉语言模型
VLM
多模态
stable diffusion
pytorch
web
前端
javascript
prompt
embedding
AIGC
UNet