经典transformer视觉模型总结_transformer的视觉模型

作者：Li_阴宅 | 2024-07-29 08:25:23

踩

transformer的视觉模型

ViT: AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 是 2020 年 Google 团队提出的将 Transformer 应用在图像分类的模型。

ViT 在 Transformer 架构的视觉模型的地位类似 ResNet 模型。因为其模型“简单”且效果好，可扩展性强（scalable，模型越大效果越好），成为了 Transformer 在 CV 领域应用的里程碑著作。

ViT 算法的整体结构如下图所示。

vit_model_overview

我们知道在 Transformer 结构中，输入是一个二维的矩阵，矩阵的形状可以表示为

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Li_阴宅/article/detail/897916