当前位置:   article > 正文

经典transformer视觉模型总结_transformer的视觉模型

transformer的视觉模型

Vision Transformer 模型

ViT: AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型。

ViT 在 Transformer 架构的视觉模型的地位类似 ResNet 模型。因为其模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了 Transformer 在 CV 领域应用的里程碑著作。

ViT 结构

ViT 算法的整体结构如下图所示。

vit_model_overview

我们知道在 Transformer 结构中,输入是一个二维的矩阵,矩阵的形状可以表示为 ( N , D ) (N,D)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/897916
推荐阅读
相关标签
  

闽ICP备14008679号