sahi:切片辅助推理和微调小目标检测_slicing aided hyper inference and fine-tuning for

作者：正经夜光杯 | 2024-07-21 04:21:39

踩

slicing aided hyper inference and fine-tuning for small object detection

文章目录

前言
一、小目标检测
- 1、小目标的定义
- 2、小目标检测的难点
二、Slicing Aided Fine-tuning(SF)
- 切片辅助微调：
三、Slicing Aided Hyper Inference (SAHI)
- 切片辅助推理
总结

前言

最近开始接触小目标检测的算法，直观想到的算法就是将可能存在小目标的图像区域进行合理的放大然后进行检测。偶然间发现与上述想法类似，原理简单却又有效的sahi算法而且能方便的与YOLO v5结合，正好拿来读一读。
论文题目：SLICING AIDED HYPER INFERENCE AND FINE-TUNINGFOR SMALL OBJECT DETECTION
论文地址
 git地址

Fatih Cagatay Akyon, Sinan Onur Altinuc, & Alptekin Temizel (2022). Slicing Aided Hyper Inference and Fine-Tuning for Small Object Detection. In 2022 IEEE International Conference on Image Processing (ICIP). IEEE.

一、小目标检测

1、小目标的定义

所谓小目标指的是目标成像尺寸较小，通常有两种定义方式：

一种是绝对尺寸大小，在COCO数据集中，尺寸小于32×32像素的目标被认为是小目标；
另一种是相对尺寸大小，根据国际光学工程学会定义，小目标为256×256像素的图像中成像面积小于80像素的目标，即若目标的尺寸小于原图的0.12%则可以认为是小目标。

2、小目标检测的难点

（1）目标尺寸与深度网络提取特征之间存在矛盾。小目标直观来看在图像中的占比很小。由于池化层的存在，基于CNN的目标检测算法会使目标信息量进一步减少，深层特征对小目标的表达能力很弱。比如，一个24×24像素的目标经过4个池化层后可能只有一个像素，维度过低。
（2）数据集较少且目标尺度分布不均匀。目前小目标检测算法大多使用COCO数据集，但是在COCO数据集中小目标数量较少且分布不均匀，只有52.3%的图像中包含小目标。
（3）针对小目标的检测算法一般针对特定的目标场景，缺乏通用性，算法迁移较难。

二、Slicing Aided Fine-tuning(SF)

在这里插入图片描述

切片辅助微调：

在原始图片提取出一些patches，通过保持纵横比来调整大小(如图中红框所示)，可以看作一种数据增强的操作。
如作者所说，必须注意的是，随着片尺寸减小，较大的对象可能不适合切片和相交区域，并且这可能导致对较大对象的较差检测性能。

三、Slicing Aided Hyper Inference (SAHI)

在这里插入图片描述

切片辅助推理

基本过程可以描述为：将图片裁成一块块，然后再保持纵横比的同时调整每个patch的大小，分别进行预测，将预测结果合并回原始的大小同时与原始图像的全推断(FI)融合。然后用NMS（非极大值抑制）统一进行过滤。
对于小目标和大目标都可以取得不错的效果。

总结

这里直接把作者的总结放在这里：
The proposed slicing aided hyper inference scheme can directly be integrated into any object detection inference pipeline and does not require pretraining. Experiments with FCOS, VFNet, and TOOD detectors on Visdrone and xView datasets show that it can result in up to 6.8% AP increase. Moreover, applying slicing aided fine-tuning results in an additional 14.5% AP increase for small objects and applying 25% overlap between slices results in a further 2.9% increase in AP. Training a network with higher resolution images through larger feature maps result in higher computation and memory requirements. The proposed approach increases the computational time linearly, while keeping memory require- ments fixed. Computation and memory budgets can also be traded-off by adjusting the patch sizes, considering the target platform. In the future, instance segmentation models will be benchmarked utilizing the proposed slicing approach and different post-processing techniques will be evaluated.

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/859619