当前位置:   article > 正文

第六周深度学习总结_mlp head

mlp head

Vision Transformer

ViT模型架构

  •  Linear Projection of Flattened Patches(Embedding层)
  • Transformer Encoder( 图右侧有给出更加详细的结构)
  • MLP Head (最终用于分类的层结构)

Embedding层

Position Embedding

位置编码之间的差异不大。

Transformer Encoder 

Encoder Block 堆叠L次即为 Transformer Encoder 。

MLP Head

训练ImageNet21K时是由 Linear+tanh激活函数+Linear,但是迁移到ImageNet1K上或者你自己的数据上时,只有一个Linear。

Hybrid混合模型

首先使用一个卷积操作提取出特征,之后再通过ViT模型

​​​​​

  • R50的卷积层采用的StdConv2d 不是传统的Conv2d
  • 将所有的 BatchNorm 层替换成 GroupNorm层
  • stage4 中的 3 Block 移至 stage3中

Swin-Transformer

window之间不进行信息传递,大大降低运算量。

网络整体框架

Patch Merging详解

W-MSA详解

目的:减少计算量

缺点:窗口之间无法进行信息交互

 从上图可以看出,W-MSA模块能够比MSA模块节省大量的计算量。

Shifted Window

Relative position bias

之后经过下图的变换

 

经过变换得到 relative position index。

最后经过上图的步骤得到relative position bias。

模型详细配置参数

ConvNeXt 

作者将Transformer中运用的新技术,运用在卷积神经网络上。

Macro design

ResNeXt

Inverted bottleneck

Large kerner size

Macro designs

感想 

认真学习各个网络是非常重要的,把它们的思想理解透彻,才能做到推陈出新。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/blog/article/detail/93005
推荐阅读
相关标签
  

闽ICP备14008679号