Vision Transformer模型简述（图像分类篇）_vision transformer分类项目

作者：IT小白 | 2024-02-16 12:04:21

踩

vision transformer分类项目

主要素材来源链接 https://blog.csdn.net/qq_37541097?spm=1001.2014.3001.5509

模型的组成

在这里插入图片描述

简单而言，模型由三个模块组成：

Linear Projection of Flattened Patches （嵌入层）
Transformer Ecoder
MLP Head(用于分类)

embeding层

在这里插入图片描述
一般的输入图像是[H,W,C]是三维的，这个格式是不符合Transformer Encoder的输入要求的。所以我们这一层的主要目的就是变换"三维矩阵变成二维矩阵"。
主要步骤：
1.将一张图片按给定的大小分成一堆patches。
2.通过线性映射将每个Patch映射到一维向量(token)中。在这里插入图片描述
注意：在输入Transformer Encoder之前注意需要加上[class]token以及Position Embedding

Transformer Encoder模块

在这里插入图片描述 Transformer Encoder其实就是重复堆叠Encoder Block L次。

Layer Norm （是NLP领域的，这是相对于图像领域的BN）
Multi-Head Attention
Dropout/DropPath
MLP Block，如下面所所示

MLP Head

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/93014