赞
踩
自监督旨在通过无标签的数据来训练模型,但其训练方式是有监督的,其监督标签来自数据本身,这也就是自监督的由来。受益于文字天然存在的语义依赖以及序列性,自监督在NLP领域中使用最为广泛,BERT, GPT等基于Transformer的工作借助自监督方式为NLP研究提供了高质量的预训练与词向量模型。
在计算机视觉中,自监督与对比学习相辅相成。在研究中关注如何设计有效的对比损失或者采样得到对比样本,eg:Moco, BYOL,以此对模型进行有效的训练。随着Transformer在视觉领域中得到重视,研究者开始探索是否能将NLP中自监督的成功经验使用到视觉预训练模型中,最大程度解放视觉模型对数据标签的依赖,下面这个表。
谷歌首先的视觉中使用Transformer,第一次大规模的采用纯transformer做cv任务的文章,验证了Transformer在cv领域的有效性,也拉开了Transformer在cv领域发展的序幕。
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(Google发表在ICLR 2021)
VIT中指出在视觉中使用Transformer需要大量的数据作为支撑,而其自身也是在谷歌私有数据上训练(JFT-300M)得到,所以其复现有一定的难度。针对此Facebook 设计了Deit: Data-efficient image Transformers来缓解VIT对数据的依赖。
Training data-efficient image transformers & distillation through attention(Facebook AI ICML2020)
由于有teacher network的知识注入,模型能够学习到更加精细的特征,能够有效缓解模型对数据的依赖。
Generative Pretraining from Pixels(ICML 2020 cv中GPT)
BEiT: BERT Pre-Training of Image Transformers(ICLR2022)
出发点:像素级别的auto-encoding不好做,所以本文在patch上做image-pathes + visual-tokens。这篇文章跟Kaiming最新的那篇文章不同之处是,这篇文章把图片离散化成了一个一个的数字,所以可以和文本一样进行处理,另外,Kaiming的文章对patch进行了一定程度的移除,所以可以省计算量,而这篇文章却没有。
PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers (中科大+微软)
出发点:像素级捕捉不到语义信息,图像稍微平移并不影响语义,但是像素损失却会发生很大变动;相较于BEiT更好的visual token
Masked Autoencoders Are Scalable Vision Learners
SimMIM: A Simple Framework for Masked Image Modeling(微软亚洲研究院 几乎跟MAE一样)
出发点:
(1)使用中等块进行随机mask就可以得到不错的效果
(2)直接预测原始像素就可以得到不错效果,(无需进行复杂的patch设计)
(3)decoder简单就行
Emerging Properties in Self-Supervised Vision Transformers(ICCV2021 类似BYOL)
出发点:一个新的自监督任务
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。