视觉Transformer(Vision Transformer)

作者：繁依Fanyi0 | 2024-04-25 21:05:32

踩

视觉transformer

视觉Transformer(Vision Transformer)

Vision Transformer.

Transformer是基于自注意力机制(self-attention mechanism)的深度神经网络，该模型在$2017$年$6$月被提出，并逐渐在自然语言处理任务上取得最好的性能。

Transformer最近被扩展到计算机视觉任务上。由于Transformer缺少CNN的inductive biases如平移等变性 (Translation equivariance)，通常认为Transformer在图像领域需要大量的数据或较强的数据增强才能完成训练。随着结构设计不断精细，也有一些视觉Transformer只依赖小数据集就能取得较好的表现。

本文主要介绍视觉Transformer在基础视觉任务(即图像分类)上的应用，这些模型训练完成后正如图像识别的CNN模型一样，可以作为backbone迁移到不同的下游视觉任务上，如目标检测、图像分割或low-level视觉任务。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/487254