目标检测任务简述_目标检测下游任务

作者：Cpp五条 | 2024-06-14 16:57:48

踩

目标检测下游任务

目标检测竟然也可以说是一个比较上游的任务了，以此为基础的下游任务可以是环境感知（自动驾驶），人体关键点检测等；

与图像分类的区别：

目标检测物体数量不固定，位置不固定，大小不固定；分类一般都是一张图片中是一个物体，位置在正中间，大小占整张图片的大部分。

滑窗：设定固定大小窗口；遍历图像所有位置，所到之处先用分类模型识别窗口中的内容；

为了检测不同大小、形状的物体，使用不同大小，长宽比的sliding window去检测；

但是滑窗效率很低，为此做出了如下改进：

替换暴力的遍历操作：例如R-CNN,FRCNN的selective search产生提议框，但是提议框作为不能训练的外部操作违背了从数据中学习的理念；

有重叠部分被卷积重复计算了：改为考虑使用卷积一次性计算所有特征，再取出对应位置的特征图完成分类（三个词概括地简单来说：定位，抠出来，“特征图剪裁”。）这种方法也被称为 “特征图滑窗”。

在特征图上进行密集预测：密集预测是基于网络定义的隐式滑窗方法，不同特征的感受野自然形成一系列等距离分布的窗；把特征送入网络的线性层（线性分类器）；事实上，通过1*1 的卷积达成这个线性作用是如今的方法，产生出概率图。

二阶段方法，基于区域的方法，窗的概念还在；

单阶段方法，基于单点特征实施密集预测；

发展历史简述：

2012年前：DPM；2012年后： RCNN->FR-CNN（21~34 map；100~200ms）->MASK R-CNN ( RPN 类似于密集预测范式)；

YOLO（22ms）加入多尺度技术FPN；更新出retinanet（73~198ms），YOLO更多的系列；

SSD；

级联方法 Cascade R-CNN（42.8）, HTC；

transformer： DETR; Deformable DETR（52.3）；

检测基础知识：

同义词：区域region；区域提议region propose；感兴趣区域region of interest |||| Roi；锚框anchor box,anchor

交并比：交集面积和并集面积之比，框重合重读的衡量指标
置信度：分类模型预测概率，可能会有些其他的加权score影响
非极大值抑制 non-maximum suppression：物体周围多个相近的检测框，实际指向同一个物体的框们，只保留其中置信度最高的，-> 把高重叠的框们中confidence非最大的抑制掉；
边界框回归 BBOX regression：滑窗与物体精准边界有偏差，为了精准预测边界；所以要求模型在预测分类时还要预测框的相对偏移量；
BBOX CODING 边界框编码：设计归一化等编码方案，为了让回归任务轻松一些；

以特征图对应在原图的位置，设置不同尺寸的基准框，产生多个预测；RPN是专门检测某个地方有没有物体的；开篇了解决大框下有多个目标的问题；

-> 给出有和没有，并且把有的类别都给出来的YOLO

一阶段算法的问题之一：正负样本不均衡，8700+的样本分类，正样本却只有几十个 -> 模型会偏向背景预测，导致漏检；

△ 朴素的分类损失不能驱动检测器在有限能力下达到漏检和错检之间的平衡。

-> focal loss -> retinanet 解决一阶段的正负样本不均衡问题；

-> 不基于框，基于点（为什么能？如图）

centernet2019 定义出以关键点来检测，展开了3D和姿态估计等领域的检测

DETR2020：脱离密集预测范式，从特征序列到框序列的翻译问题，更端到端的方法，不进行什么后处理，set -> set 的过程；但是这个方法收敛很慢

Deformable DETR2021: 注意力聚焦的方式修改成基于（直接显示出） query，Q 的位置，加快收敛；这是范式的创新；swin是主干的创新

评估方法：TP ：检测正确，并且检测到了； FP: 检测错误，但是确实检测到了；

FN：没检测到，并且检测失败；

R = TP / (TP +FN) P = TP / (TP +FP)

画PR curve ，计算图线下方面积得AP值；

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/718801