主干网络篇 | YOLOv5/v7 更换主干网络之 SwinTransformer | Vision Transformer using Shifted Windows_yolov7 替换swin transformer repconv

作者：Monodyee | 2024-04-11 02:54:22

踩

yolov7 替换swin transformer repconv

在这里插入图片描述

本文介绍了一种新的视觉Transformer，称为Swin Transformer，它可以作为计算机视觉通用的骨干网络。从语言到视觉的转换中，适应Transformer所面临的挑战源于两个领域之间的差异，如视觉实体尺度的巨大变化和图像中像素的高分辨率与文本中单词的差异。为了解决这些差异，我们提出了一种分层Transformer，其表示是通过Shifted窗口计算的。Shifted窗口方案通过将自注意计算限制在非重叠的本地窗口内，同时允许跨窗口连接，从而提高了效率。这种分层架构具有在不同尺度下进行建模的灵活性，并且与图像大小的计算复杂度呈线性关系。这些特性使Swin Transformer与广泛的视觉任务兼容，包括图像分类（在ImageNet-1K上的87.3的top-1准确率）和密集预测任务，如物体检测（在COCO测试中的58.7 box AP和51.1 mask AP）和语义分割（在ADE20K val上的53.5 mIoU）。它的性能在COCO上比先前的最先进水平提高了2.7个box AP和2.6个mask AP，在

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/402507