赞
踩
一、核心思想
1、多添加一个预测头(微小物体检测),四个预测头缓解较大的物体尺度变化
2、集成 Transformer Prediction Heads (TPH),在高密度遮挡对象上具有更好的性能
3、集成CBAM
4、自训练分类器
5、图像预处理
(1)随机缩放、裁剪、平移、剪切(shearing)和旋转
(2)Mixup: 从训练图像中随机选取两个样本进行随机加权求和,样本的标签也与加权求和相对应
(3)Mosaic: 拼接了四幅图像
6、模型集成
WBF:merges all boxes to form the final result
作用:
•我们增加了一个预测头来处理对象的大尺度方差。
•我们将Transformer Prediction Heads (TPH)集成到YOLOv5中,可以在高密度场景中准确定位物体。
•我们将CBAM集成到YOLOv5中,可以帮助网络在大区域覆盖的图像中找到感兴趣的区域。
•我们提供了一些有用的技巧和过滤一些无用的技巧,用于无人机捕获场景的对象检测任务。
•我们使用自训练的分类器来提高对一些令人困惑的类别的分类能力。
•在VisDrone2021测试挑战数据集上,我们提出的TPH-YOLOv5达到39.18% (AP),比DPNetV3(以前的SOTA方法)的性能好1.81%。在VisDrone2021 DET挑战赛中,TPH-YOLOv5获得第5名,与第一名的型号相比差距较小。
二、整体架构
骨干网络
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。