当前位置:   article > 正文

视觉Transformer(Vision Transformer)

视觉transformer

视觉Transformer(Vision Transformer)

Vision Transformer.

Transformer是基于自注意力机制(self-attention mechanism)的深度神经网络,该模型在$2017$年$6$月被提出,并逐渐在自然语言处理任务上取得最好的性能。

Transformer最近被扩展到计算机视觉任务上。由于Transformer缺少CNNinductive biases如平移等变性 (Translation equivariance),通常认为Transformer在图像领域需要大量的数据或较强的数据增强才能完成训练。随着结构设计不断精细,也有一些视觉Transformer只依赖小数据集就能取得较好的表现。

本文主要介绍视觉Transformer在基础视觉任务(即图像分类)上的应用,这些模型训练完成后正如图像识别的CNN模型一样,可以作为backbone迁移到不同的下游视觉任务上,如目标检测、图像分割或low-level视觉任务。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/487254
推荐阅读
相关标签
  

闽ICP备14008679号