赞
踩
目标检测竟然也可以说是一个比较上游的任务了,以此为基础的下游任务可以是环境感知(自动驾驶),人体关键点检测等;
与图像分类的区别:
目标检测物体数量不固定,位置不固定,大小不固定;分类一般都是一张图片中是一个物体,位置在正中间,大小占整张图片的大部分。
滑窗:设定固定大小窗口;遍历图像所有位置,所到之处先用分类模型识别窗口中的内容;
为了检测不同大小、形状的物体,使用不同大小,长宽比的sliding window去检测;
但是滑窗效率很低,为此做出了如下改进 :
在特征图上进行密集预测:密集预测是基于网络定义的隐式滑窗方法,不同特征的感受野自然形成一系列等距离分布的窗;把特征送入网络的线性层(线性分类器); 事实上,通过1*1 的卷积达成这个线性作用是如今的方法,产生出概率图。
二阶段方法,基于区域的方法,窗的概念还在;
单阶段方法,基于单点特征实施密集预测;
发展历史简述:
2012年前:DPM;2012年后: RCNN->FR-CNN(21~34 map;100~200ms)->MASK R-CNN ( RPN 类似于密集预测范式);
YOLO(22ms) 加入多尺度技术FPN;更新出retinanet(73~198ms),YOLO更多的系列;
SSD;
级联方法 Cascade R-CNN(42.8), HTC;
transformer: DETR; Deformable DETR(52.3);
检测基础知识:
同义词:区域region;区域提议region propose;感兴趣区域region of interest |||| Roi;锚框anchor box,anchor
以特征图对应在原图的位置,设置不同尺寸的基准框,产生多个预测;RPN是专门检测某个地方有没有物体的;开篇了解决大框下有多个目标的问题;
-> 给出有和没有,并且把有的类别都给出来的YOLO
一阶段算法的问题之一:正负样本不均衡,8700+的样本分类,正样本却只有几十个 -> 模型会偏向背景预测,导致漏检;
△ 朴素的分类损失不能驱动检测器在有限能力下达到漏检和错检之间的平衡。
-> focal loss -> retinanet 解决一阶段的正负样本不均衡问题;
-> 不基于框,基于点 (为什么能?如图)
centernet2019 定义出以关键点来检测,展开了3D和姿态估计等领域的检测
DETR2020:脱离密集预测范式,从特征序列到框序列的翻译问题,更端到端的方法,不进行什么后处理,set -> set 的过程; 但是这个方法收敛很慢
Deformable DETR2021: 注意力聚焦的方式修改成基于(直接显示出) query,Q 的位置,加快收敛;这是范式的创新;swin是主干的创新
评估方法:TP :检测正确,并且检测到了; FP: 检测错误,但是确实检测到了;
FN:没检测到,并且检测失败;
R = TP / (TP +FN) P = TP / (TP +FP)
画PR curve ,计算图线下方面积得AP值 ;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。