Transfomer,VIT,Swin-TR,DETR,SETR的网络结构以及改进思路_setr改进的网络有哪些

作者：羊村懒王 | 2024-04-26 21:16:39

踩

setr改进的网络有哪些

1、Transformer结构

Transformer的结构和Attention模型一样，Transformer模型中也采用了 encoer-decoder 架构。但其结构相比于Attention更加复杂，论文中encoder层由6个encoder堆叠在一起，decoder层也一样。

每一个encoder和decoder的内部结构如下图：

encoder，包含两层，一个self-attention层和一个前馈神经网络，self-attention能帮助当前节点不仅仅只关注当前的词，从而能获取到上下文的语义。

decoder也包含encoder提到的两层网络，但是在这两层中间还有一层attention层，帮助当前节点获取到当前需要关注的重点内容

2、VIT的网络结构

VIT的网络结构如下所示

ViT模型的网络结构如上图的右半部分所示，与原始的Transformer中的Encoder不同的是Norm所在的位置不同，类似BERT模型中[class]标记位的设置，ViT在Transformer输入序列前增加了一个额外可学习的[class]标记位，并且该位置的Transformer Encoder输出作为图像特征。

Vision Transformer(ViT)将输入图片拆分成16×16个patches，每个patch做一次线性变换降维同时嵌入位置信息，然后送入Transformer。类似BERT[CLS]标记位的设计，在ViT中，在输入序列前增加了一个额外可学习的[class]标记位，并将其最终的输出作为图像特征，最后利用MLP做最后的分类，如上图中的左半部分所示，其中，[class]标记位为上图中Transformer Encoder的0*。

3、Swin-TR的网络结构

Swin-TR引入了窗口注意力机制，通过将图像分为若干窗口，以窗口为单位进行注意力计算，实现对大图像的高效建模。这种结构使得Swin-TR在处理大图像时具有明显的优势。

4、SETR的网络结构

模型整体结构如下图所示，

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/493153