盐析白兔

这个屌丝很懒，什么也没留下！

热门标签

article

Transformer（二）搞懂Vision Transformer_hybrid模型详解

作者：盐析白兔 | 2024-02-16 12:02:09

踩

hybrid模型详解

论文： An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale
论文链接：https://arxiv.org/abs/2010.11929
对应源码：https://github.com/google-research/vision_transformer

一、Embedding层结构详解

二、Transformer Encoder详解

三、MLP Head详解

四、ViT模型搭建参数

五、Hybrid模型详解

本文介绍的An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale将Transformer应用到计算机视觉领域，称作Vision Transformer（ViT）。

ViT是纯Transformer模型。下图是原论文中给出的关于Vision Transformer(ViT)的模型框架。简单而言，模型由三个模块组成：

Linear Projection of Flattened Patches(Embedding层)。
Transformer Encoder(图右侧有给出更加详细的结构)。作用是将图片格式[H, W, C]转化为Transformer输入格式[num_token, token_dim]。
MLP Head（最终用于分类的层结构）。

一、Embedding层结构详解

对于标准的Transformer模块，要求输入的是token（向量）序列，即二维矩阵[num_token, token_dim]，如下图，token0-9对应的都是向量，以ViT-B/16为例，每个token向量长度为768（768=16*16*3）。

对于图像数据而言，其数据格式为[H, W, C]是三维矩阵明显不是Transformer想要的。所以需要先通过一个Embedding层来对数据做个变换。如下图所示，首先将一张图片按给定大小分成一堆Patches。以ViT-B/16为例，将输入图片(224x224)按照16x16大小的Patch进行划分，划分后会得到 $( 224 / 16 )^{2} = 196$ 个Patches。接着通过线性映射将每个Patch映射到一维向量中，以ViT-B/16为例，每个Patche数据shape为[16, 16, 3]通过映射得到一个长度为768的向量（后面都直接称为token）。[16, 16, 3] -> [768]

在代码实现中，直接通过一个卷积层来实现。 以ViT-B/16为例，直接使用一个卷积核大小为16x16，步距为16，卷积核个数为768的卷积来实现。通过卷积[224, 224, 3] -> [14, 14, 768]，然后把H以及W两个维度展平即可[14, 14, 768] -> [196, 768]，此时正好变成了一个二维矩阵，正是Transformer想要的。

在输入Transformer Encoder之前注意需要加上[class]token以及Position Embedding。 在原论文中，作者说参考BERT，在刚刚得到的一堆tokens中插入一个专门用于分类的[class]token（即第0号），这个[class]token是一个可训练的参数，数据格式和其他token一样都是一个向量，以ViT-B/16为例，就是一个长度为768的向量，与之前从图片中生成的tokens拼接在一起，Cat([1, 768], [196, 768]) -> [197, 768]。然后关于Position Embedding就是Transformer中讲到的Positional Encoding，这里的Position Embedding采用的是一个可训练的参数（1D Pos. Emb.），是直接叠加在tokens上的（add），所以shape要一样。以ViT-B/16为例，刚刚拼接[class]token后shape是[197, 768]，那么这里的Position Embedding的shape也是[197, 768]。

对于Position Embedding作者也有做一系列对比试验，在源码中默认使用的是1D Pos. Emb.，对比不使用Position Embedding准确率提升了大概3个点，和2D Pos. Emb.比起来没太大差别。

二、Transformer Encoder详解

Transformer Encoder其实就是重复堆叠Encoder Block L次，下图是博主「太阳花的小绿豆」绘制的Encoder Block，主要由以下几部分组成：

Layer Norm，这种Normalization方法主要是针对NLP领域提出的，这里是对每个token进行Norm处理。
Multi-Head Attention，这个结构之前在讲Transformer中很详细的讲过。
Dropout/DropPath，在原论文的代码中是直接使用的Dropout层。
MLP Block，如图右侧所示，就是全连接+GELU激活函数+Dropout组成也非常简单，需要注意的是第一个全连接层会把输入节点个数翻4倍[197, 768] -> [197, 3072]，第二个全连接层会还原回原节点个数[197, 3072] -> [197, 768]。

三、MLP Head详解

上面通过Transformer Encoder后输出的shape和输入的shape是保持不变的，以ViT-B/16为例，输入的是[197, 768]输出的还是[197, 768]。注意，在Transformer Encoder后其实还有一个Layer Norm没有画出来。这里我们只是需要分类的信息，所以只需要提取出[class]token生成的对应结果就行，即[197, 768]中抽取出[class]token对应的[1, 768]。接着我们通过MLP Head得到我们最终的分类结果。MLP Head原论文中说在训练ImageNet21K时是由Linear+tanh激活函数+Linear组成。但是迁移到ImageNet1K上或者你自己的数据上时，只用一个Linear即可。

下图是博主「太阳花的小绿豆」根据源代码画了张更详细的图(以ViT-B/16为例)：

四、ViT模型搭建参数

在论文的Table1中有给出三个模型（Base/ Large/ Huge）的参数，在源码中除了有Patch Size为16x16的外还有32x32的。其中的Layers就是Transformer Encoder中重复堆叠Encoder Block的次数，Hidden Size就是对应通过Embedding层后每个token的dim（向量的长度），MLP size是Transformer Encoder中MLP Block第一个全连接的节点个数（是Hidden Size的四倍），Heads代表Transformer中Multi-Head Attention的heads数。

五、Hybrid模型详解

在论文4.1章节的Model Variants中有比较详细的讲到Hybrid混合模型，就是将传统CNN特征提取和Transformer进行结合。下图绘制的是以ResNet50作为特征提取器的混合模型，但这里的Resnet与之前讲的Resnet有些不同。首先这里的R50的卷积层采用的StdConv2d不是传统的Conv2d，然后将所有的BatchNorm层替换成GroupNorm层。在原Resnet50网络中，stage1重复堆叠3次，stage2重复堆叠4次，stage3重复堆叠6次，stage4重复堆叠3次，但在这里的R50中，把stage4中的3个Block移至stage3中，所以stage3中共重复堆叠9次。

通过R50 Backbone进行特征提取后，得到的特征矩阵shape是[14, 14, 1024]，接着再输入Patch Embedding层，注意Patch Embedding中卷积层Conv2d的kernel_size和stride都变成了1，只是用来调整channel。后面的部分和前面ViT中讲的完全一样。

参考链接：

Vision Transformer详解_太阳花的小绿豆的博客-CSDN博客_vit详解

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/blog/article/detail/92992

Transformer（二）搞懂Vision Transformer_hybrid模型详解

一、Embedding层结构详解

二、Transformer Encoder详解

三、MLP Head详解

四、ViT模型搭建参数

五、Hybrid模型详解

fatal error: THC/THC.h: No such file or directory_/cuda/vision.h:3:10: fatal error: thc/thc.h: 没有那个文

Windows安装Dolby Vision 杜比视界插件

[Transformer]TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

论文阅读——MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications_moblienets论文阅读

想要成为 NLP 领域的大牛？从 ChatGPT 的 5 大自然语言模型开始了解吧（LM、Transformer、GPT、RLHF、LLM）——小白也能看得懂_llm rlhf

【paper-note9】Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

论文解读10——Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting_informer论文解读

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting论文笔记

2020.11.30-12.7 人工智能行业每周技术精华文章汇总_valse transformer cv

（2023|PAMI，diffusion & 综述）视觉扩散模型_diffusion models in vision: a survey

目标检测算法——YOLOv5/YOLOv7改进结合BotNet（Transformer）_transformer yolov5

小白看得懂的 Transformer (图解)

【论文精读】 Vision Transformer（ViT）

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：基础知识

【深度学习】详解 Vision Transformer (ViT)

Vision Transformer (ViT)及各种变体_vit架构

对 Vision Transformers 及其基于 CNN-Transformer 的变体的综述_卷积位置嵌入什么意思

Transformer——patch embedding代码

一文解读Vision Transformer(ViT)

一文详解Vision Transformer（附代码）