赞
踩
论文地址:An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
code地址:github.com/google-research/vision_transformer
Transformer 最早提出是针对NLP领域的,并且在NLP领域引起了强烈的轰动。
ViT的核心流程包括:
下面分别从这四个流程部分来阐述ViT的基本设计。
第一步可以看作是一个图像预处理步骤。
假设一个图像 I ∈ H × W × C I∈H×W×C I∈H×W×C,
这里 N N N 可以理解为输入到Transformer的序列长度, C C C 为输入图像的通道数, P P P 为图像patch的大小。(这样也就符合了transformer的输入)
2.1 中的图像分块仅仅是一道预处理流程,要将 N × ( P 2 × C ) N×(P^2×C) N×(P2×C) 的向量维度,转化为N×D大小的二维输入,还需要做一个图像块嵌入的操作。
所谓图像块嵌入,其实就是对每一个展平后的 patch 向量做一个线性变换,即全连接层,降维后的维度为D。
上式中的
E
E
E 即为块嵌入的全连接层,其输入大小为
P
2
×
C
P^2×C
P2×C(一维),输出大小为D(也是一维)。
为了保持输入图像patch之间的空间位置信息,还需要对图像块嵌入中添加一个位置编码向量,如上式中的 E p o s E_{pos} Epos 所示。
Vit中所使用的Transformer 编码器结构和原文《Attention is all you need》中的一致,理论细节可以参考Transformer 详解。
Transformer Encoder 其实就是重复堆叠 Encoder Block L次,下图是绘制的Encoder Block,主要由以下几部分组成:
上面通过Transformer Encoder 后输出的shape和输入的shape是保持不变的,以ViT-B/16为例,输入的是[197, 768]输出的还是[197, 768]。
为了更加清晰的展示ViT模型结构和训练过程中的向量变化,下图给出了ViT的向量维度变化图(图来自于极市平台)。
为了方便大家理解,太阳花的小绿豆 根据源代码画了张更详细的图 (以ViT-B/16为例):
在论文4.1章节的Model Variants中有比较详细的讲到 Hybrid混合模型,
下图 太阳花的小绿豆 绘制的是以ResNet50作为特征提取器的混合模型,但这里的Resnet与之前讲的Resnet有些不同。
通过R50 Backbone进行特征提取后,得到的特征矩阵shape是[14, 14, 1024],接着再输入Patch Embedding层,注意Patch Embedding中卷积层Conv2d的kernel_size和stride都变成了1,只是用来调整channel。后面的部分和前面ViT中讲的完全一样,就不在赘述。
1)ViT的基本训练策略是:
2)ViT做预训练使用到的大数据集包括:
其中JFT是一个谷歌的内部大规模图像数据集,约有300M图像18291个类别标注。
3)ViT预训练迁移到的数据集包括:
4)论文共设计了Base、Large和Huge三款不同大小的ViT模型,分别表示基础模型、大模型和超大模型,三款模型的各参数如下表所示。在源码中除了有Patch Size为16x16的外还有32x32的。
注:若为ViT-B/16 就表示patch size为16的 ViT-Base模型。
ViT最核心的实验就是将前述的训练方法进行实现,
为了比对CNN模型,
ViT、BiT 和 Nosiy Student 模型经三大数据集预训练后在各小数据集上的准确率如下表所示。
从表中可以看到,ViT经过大数据集的预训练后,
问题:所以接下来的问题就是 ViT 对预训练数据集规模到底有怎样的要求?
论文针对此问题做了一个对比实验。分别在ImageNet、ImageNet-21k和JFT-300M进行预训练,三个数据集规模分别为小数据集、中等规模数据集和超大数据集,预训练效果如下图所示。
从图中可以看到,
总之,大的预训练数据集加上大模型,是ViT取得SOTA性能的关键因素。
下表是论文用来对比ViT,Resnet(和刚刚讲的一样,使用的卷积层和Norm层都进行了修改)以及Hybrid模型的效果。通过对比发现,在训练epoch较少时Hybrid优于ViT,但当epoch增大后ViT优于Hybrid。
【1】https://blog.csdn.net/weixin_37737254/article/details/117639395
【2】https://blog.csdn.net/qq_37541097/article/details/118242600
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。