YOLOv10改进 | 主干篇 | YOLOv10引入EfficientViT替换Backbone

作者：笔触狂放9 | 2024-06-18 04:44:58

踩

1. EfficientViT介绍

1.1 摘要：高分辨率密集预测使得许多有吸引力的现实应用成为可能，例如计算摄影、自动驾驶等。然而，巨大的计算成本使得在硬件设备上部署最先进的高分辨率密集预测模型变得困难。这项工作提出了 EfficientViT，这是一个新的高分辨率视觉模型系列，具有新颖的多尺度线性注意力。与之前的高分辨率密集预测模型依赖于大量的softmax注意力、硬件效率低下的大内核卷积或复杂的拓扑结构来获得良好的性能不同，我们的多尺度线性注意力实现了全局感受野和多尺度学习（两个高分辨率密集预测的理想功能）仅具有轻量级和硬件高效的操作。因此，与之前最先进的模型相比，EfficientViT 提供了显着的性能提升，并在各种硬件平台（包括移动 CPU、边缘 GPU 和云 GPU）上显着加速。在 Cityscapes 上没有性能损失的情况下，我们的 EfficientViT 比 SegFormer 和 SegNeXt 分别减少了 13.9 倍和 6.2 倍的 GPU 延迟。对于超分辨率，EfficientViT 比 Restormer 提供高达 6.4 倍的加速，同时提供 0.11dB 的 PSNR 增益。对于 Segment Anything，EfficientViT 在 A100 GPU 上提供了 48.9 倍高的吞吐量，同时在 COCO 上实现了稍微更好的零样本实例分割性能。

官方论文地址：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/733699