当前位置:   article > 正文

Transformer在CV领域的优缺点_transformer的优点

transformer的优点

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


参考:添加链接描述

Visual Transformer 具有如下较好的特性:


1、全局特性:CNN算子存在局部感受野较局限的问题,为了获得全局信息,需要多层堆叠,但是随着层数增大信息量会衰竭,因此提取的特征注意力集中在某些区域。Transformer存在自注意力机制,能有效获得全局信息,并且多头可以将其映射到多个空间,使模型表达能力变强。
2、Transformer具有很好的模态融合能力,对于图像,可把对图像通过 Conv 或直接对像素操作得到的初始 Embeddings 馈入 Transformer 中,而 无需始终保持 H×W×C 的 Feature Map 结构。类似于 Position Embedding,只要能编码的信息,都可以非常轻松地利用进来。
3、Multiple Tasks 能力。不少工作证明一个 Transformer 可执行很多任务,因为其 Attention 机制可让网络对不同的 Task 进行不同的学习,一个简单的用法便是加一个 Task ID 的 Embedding。

局限性

1、计算效率。毫无疑问,目前 Transformer 还无法替代 CNN 的一个重要原因就是计算效率,目前 CV 领域还是直接套用NLP 中的 Transformer 结构,而较少地对 CV 数据做专门的设计,然而图像/视频的信息量远大于文本,所以目前 Transformer 的计算开销依然很大。当然 ViT 之后,已经陆续有工作开始设计更加适配 CV 的 Transformer 结构,估计这一个领域也是目前非常火热的领域,未来应该会有不少工作出来。
2、应用适配。除基础网络结构的改进,需要推动 Transformer 在。 CV 上的发展,还需要很多 CV 下游任务上的成功。这个看起来有点像把 Transformer 替换掉 CNN,在各个 CV 任务上重新做一篇以前的事。不过实际上不是替换掉 CNN Backbone 那么简单,首先 Transformer 的训练有自己的特性二来要利用 Transformer 的特性对于 CV 任务进行专门的改进,让大家看到 Transformer 比 CNN 做的更好的地方。
3、CNN 已在很多 CV 任务取得了成功,但是依然有一些任务没有完全克服,比如 Video 的一些任务,识别率还无法达到人脸、识别、检测这种精度。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/487206
推荐阅读
相关标签
  

闽ICP备14008679号