搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
小丑西瓜9
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【Java】Java各个版本的新特性并有代码示例_java各版本特性
2
野生动物保护视频AI智能监管方案,撑起智能保护伞,守护野生动物
3
Android安全——客户端安全要点,阿里P8大佬亲自教你
4
git clone时直接提交用户名和密码_git clone包含特殊字符
5
idea更新报错:master has no tracked branch
6
【git】LF will be replaced by CRLF the next time Git touches it 或 warning: LF will be replaced by CRLF
7
mysql 基础之MySQL 如何删除数据表_mysql删除数据库下的所有表
8
git传输时使用的两种协议ssh和http的区别_git http
9
一站式在线协作开源办公软件ONLYOFFICE,协作更安全更便捷_在线编辑office 开源
10
执行ssh-copy-id报错REMOTE HOST IDENTIFICATION HAS CHANGED_/usr/bin/ssh-copy-id: info: source of key(s) to be
当前位置:
article
> 正文
Paper小计:Learning Transferable Visual Models From Natural Language Supervision
作者:小丑西瓜9 | 2024-04-19 08:57:17
赞
踩
learning transferable visual models from natural language supervision
Abstract
参考自然语言学习视觉概念以及zero shot。
Introduction and Motivating Work
nlp领域与任务无关的架构能够将零化转移到下游数据集。这些结果表明,在网络规模的文本集合中,现代预训练方法的聚合监督超过了高质量的群体标记NLP数据集。
图1。总结一下我们的方法。标准图像模型联合训练图像特征提取器和线性分类器来预测某些标签,而CLIP联合训练图像编码器和文本编码器来预测一批(图像、文本)训练示例的正确配对。在测试时,学习到的文本编码器通过嵌入目标数据集的类的名称或描述来合成一个零镜头的线性分类器。
几个关键:zero shot;将nlp cv结合;数据规模
Approach
超大的数据集:4亿对text image(对比学习更加高效)
图像编码:尝试了残差和视觉transformer
文本编码:transformer
Analysis
零镜头CLIP的性能优于少镜头线性探头。零镜头CLIP与在相同特征空间上训练的4次线性分类器的平均性能相匹配,并且几乎在公开模型中与16次线性分类器的最佳结果相匹配。
Data Overlap Analysis
在一个非常大的互联网数据集上进行预训练的一个问题是与下游事件的意外重叠。
Broader Impacts
模型的能力、缺点和偏见的描述的研究。
Limitations
1.性能有待提升(若要提升到很高的性能,数据规模的提升已经让硬件支撑不下去)
2.数据集的选择有点迎合clip
3.复杂任务的表现不好
Related Work
Conclusion
我们研究了是否有可能将任务不可知的网络规模预训练的成功转移到另一个领域。我们发现,采用这一公式会导致在计算机视觉领域出现类似的行为,并讨论了这一研究领域的社会意义。为了优化其训练目标,CLIP模型在训练前学习执行各种各样的任务。然后,可以通过自然语言提示,使零射击转移到许多现有数据集。在足够的规模下,这种方法的性能可以与特定任务的监督模型竞争,尽管仍有很大的改进空间。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/小丑西瓜9/article/detail/450912
推荐阅读
article
【
配置
环境】
Visual
Studio
配置
OpenCV
_vs
配置
opencv
...
使用CMake 和
Visual
Studio
编译
OpenCV
库,编译了Release32位,Release64位...
赞
踩
article
stabledi
f
f
usion
环境搭建和使用技巧_
blip
_
model
=
model
s.
blip
....
stable di
f
f
usion_
blip
_
model
=
model
s.
blip
.
blip
_decoder(pretr...
赞
踩
article
Visual
Studio
2022 copilot
激活
失败
解决方案
_
visual
studio
激活
...
使用过程到
激活
步骤这里时 跳转
激活
后无效一直弹跳转
激活
的可以试试针对中国用户的
Visual
Studio
2022插件扩...
赞
踩
article
论文中文解析:
Gemma
:
基于
Gemini
研究和技术的
开放
模型
Gemma
: Open Mo...
**本研究介绍了
Gemma
,一系列
基于
Gemini
模型
的轻量级、最先进的
开放
模型
。
Gemma
模型
在语言理解、推理...
赞
踩
article
【论文笔记】
Gemini
: A
Family
of
Highly
Capable
Multimoda...
【一句话总结,对标GPT4,模型还是transformer的docoder部分,提出三个不同版本的
Gemini
模型,Ul...
赞
踩
article
Gemma
:
Open
Models
Based
on
Gemini
Research and Te...
这项工作介绍了
Gemma
,这是一个轻量级、最先进的开放模型家族,通过用于创建
Gemini
模型的研究和技术构建而成。Gem...
赞
踩
article
ChatGPT
论文:大
语言
模型
LLM
之战:
Dolly
、
LLaMA
、
Vicuna
、
Guanaco
、B...
Battle of the Large Language Models:
Dolly
vs
LLaMA
vs Vicun...
赞
踩
article
Visual
Studio
(重新)生成和(重新)生成
解决方案
的区别?_rebuild
visual
...
作为一个菜鸟,我在使用
Visual
Studio
2019这款集成开发环境时有很多疑问?看到老师每次修改完代码都会重新生...
赞
踩
article
自然语言
处理(
NLP
)-子词模型(
Subword
Model
s):
BPE
(
Byte
Pair Enc...
NLP
三大
Subword
模型详解:
BPE
、
WordPiece
、ULM_
models
.
wordpiece
models
.wo...
赞
踩
article
[
NAS
]
MCUNet
:
Tiny
Deep
Learning
on IoT
Devices
...
基于MCU的微型物联网设备上进行深度学习是一个吸引人但又有挑战性的任务,因为MCU的内存比手机端还要小2-3个数量级。本...
赞
踩
article
笔精墨妙,妙手丹青,微软开源可视化版本的
ChatGPT
:
Visual
ChatGPT
,
人工智能
AI聊...
说时迟那时快,微软第一时间发布开源库
Visual
ChatGPT
,把
ChatGPT
的
人工智能
AI能力和Stable ...
赞
踩
article
技术周刊 116 期:
Visual
Copilot
、INP、
Kimi
支持 200 万字上下文、Gr...
Visual
Copilot
、INP、
Kimi
支持 200 万字上下文、
Grok
开源、Figure 01、
Open
...
赞
踩
article
关于
H3C
交换机
使用时的一些常用的配置命令_
arp
max
-
learning
-
num
0...
一、
H3C
交换机
Port+IP+MAC绑定(接入
交换机
上可以使用) 类似白名单模式,绑定后才放行。将报文的接收端口、源...
赞
踩
article
【
计算
机视觉】使用
python
-notebook 展示如何下载和运行
CLIP
models
,
计算
...
例如,通过将一张
图片
和一个描述该
图片
内容的
文本
查询进行编码,可以
计算
它们在向量空间中的距离,并找到与之
相似
的
图片
或
文本
。...
赞
踩
article
大
语言
模型
的预训练[3]之
Prompt
Learning
:
Prompt
Engineering、An...
大
语言
模型
的预训练[3]之
Prompt
Learning
:
Prompt
Engineering、
Answer
engin...
赞
踩
article
【论文阅读】
SynDiff
Unsupervised
Medical
Image Translati...
通过源-目标通道转换对缺失图像进行填充可以提高医学成像协议的多样性。合成目标图像的普遍方法包括通过生成性对抗网络(GAN...
赞
踩
article
编织效率之梦
:
Visual
Studio
与
Windows
快捷键
指南...
个人主页
:
日刷百题
:
〖C/C++小游戏〗〖Linux〗〖数据结构〗 〖C语言〗编织效率之梦
:
Visual
Studio
与...
赞
踩
article
GQA
: Training Generalized
Multi
-
Query
Transformer
...
分组查询注意力的模型的能力与多头注意力的的模型能力相近而且推理速度和多查询注意力相近,等同于同时融合了两者的优点,但是注...
赞
踩
article
《读论文系列
文本
生成
图像
再
生成
文本
,计算
语义
一致性
MirrorGAN
》
Learning
Te...
从给定的
文本
描述
生成
图像
有两个目标:视觉真实感和
语义
一致性
。在本文中,我们提出
MirrorGAN
。
MirrorGAN
利用...
赞
踩
article
Course
ra吴恩达深度
学习
课程最新
学习
笔记
Deep
Learning
Specializati...
Course
ra吴恩达深度
学习
课程最新
学习
笔记
Deep
Learning
Specialization
Course
...
赞
踩
相关标签
visual studio
opencv
stable diffusion
大数据
ai
人工智能
语言模型
论文阅读
Gimini
Transformer
GPT
chatgpt
深度学习
llama
bard
数据库
ide
自然语言处理
BPE
WordPiece
ULM
物联网
microsoft
开源
python