赞
踩
版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/weixin_44474718/article/details/89414127
【分割线】 |
主要特征:集成的处理识别(Recognition)、定位(Localization)、检测(Detection)三个问题,做到一个网络解决所有问题。并且通过一个卷积网络,实现对输入支持多尺度(multiscale)、滑动窗口的变换。学习FCN、offset pooling,然后把它们结合起来。over feat就是说我们得到了不同尺寸的feature map,并且在feature map上遍历。
OverFeat说的简单一点就是特征提取算子,就相当于SIFT,HOG等这些算子一样。
主要特征:这是Szegedy等人开发的边界框回归技术的名称。最后,MultiBox只保留最小化定位(LOC)和置信度(CONF)损失的前K个预测。
解释一下为什么经过SPP池化层维度就一致:因为不管输入的特征图多大,经过最大池化之后,得到的结果长度都是1、4、16。即,输出结果与输入无关。
主要特征:通过提取多个区域的特征来丰富目标的特征,达到提高目标检测的效果。
主要特征:论文主要干了一件事:用一个卷积网,对于bottom-up方法(主要是EdgeBox)产生的proposal重新打分(re-rank)。也就是用EdgeBox等方法产生的proposal区域进行重新排序,把准确的区域赋予更高的objectness score。更直白一点:EdgeBox产生的每个propsal都有得分,得分有高有低,但有时候最准的box得分并不高,得分高的box并不准,用一个卷积网将这个score进行纠正。。
主要特征:构建了一个反向级联,从CNN的最终卷积层到最初的卷积层,选择最有希望的对象位置并以粗到精的方式细化它们的边框。???。
如下公式所示,confidence代表了所预测的box中含有object的置信度(有object取1,否则取0)和这个box预测的有多准两重信息:
主要特征:G-CNN,一种基于卷积神经网络的,不依赖于候选框生成算法(proposal algorithms-费时)的目标检测算法。G-CNN从一固定的多尺度网格边框开始,此后训练一回归器迭代地移动和缩放对象网格。意即G-CNN将对象检测问题建模为寻找从固定网格到致密对象框的路径。Fast R-CNN由候选框生成算法生成近2K个边框(候选框),G-CNN仅从180个固定网格开始,然性能与之相当。这种策略去掉候选框生成阶段,减少需要处理的候选框,使得对象检测更快。(注:one-step regression不能处理这个非线性的过程,因此采用迭代)
主要特征:通过zoom缩放来确定候选区域,因此,锚点区域集的生成取决于图像内容。对于只有少量小对象的图像,大多数区域在搜索的早期被修剪,在对象附近留下一些小的锚区域。对于只包含大型实例的图像,我们的方法优雅地回到依赖于少量大型锚区域的现有方法。通过这种方式,我们的算法自适应地将其计算资源定向到可能包含对象的区域。==对于一个包含小目标的区域,算法能够持续进行细化分割区域,以便实现最终的检测。==小目标的检测在两步网络的主要问题是第一步的区域建议可能存在问题。
参考:https://blog.csdn.net/fine_0007/article/details/88305658
主要特征:所谓 Outside 是指 ROI 区域之外,也就是目标周围的 上下文(Contextual)信息,通过添加了两个 RNN 层(修改后的 IRNN)实现上下文特征提取。上下文信息对于目标遮挡有比较好的适应。所谓 Inside 是指在 ROI 区域之内,通过连接不同 Scale 下的 Feature Map,实现多尺度特征融合。这里采用的是 Skip-Pooling,从 conv3-4-5-context 分别提取特征。 多尺度特征能够提升对小目标的检测精度。
主要特征:Faster-RCNN的变种。HyperNet主要改进在于集合了多层的特征图,得到多尺度的超特征(Hyper Feature),相比与Faster-RCNN,HyperNet更擅长处理小物体,在高IOU时更有优势,mAP提高3.1%。但多尺度也必然降低速度。其快速模型HyperNet-SP速度与Faster-RCNN相同,VOC上mAP仅提高1.6%。但注意到其应用的跳层特征(skip layer feature)在处理小物体检测中已经在ION等多次被用到,成为了一种常用的有效手段。
主要特征:用于一般物体检测,遵循“分而治之”的理念。 通过精心设计的卷积神经网络级联,它改善了候选区域的生成和分类任务。 对于候选区域任务,CRAFT输出更紧凑和更好的本地化对象候选区域。R-CNN 系列算法的第一阶段是生成目标 proposals,第二阶段是对目标 proposals 进行分类,2016 年中科院自动化所提出的 CRAFT 算法分别对 Faster R-CNN 中的这两个阶段进行了一定的改进。对于生成目标 proposals 阶段,在 RPN 的后面加了一个二值的 Fast R-CNN 分类器来对 RPN 生成的 proposals 进行进一步的筛选,留下一些高质量的 proposals;对于第二阶段的目标 proposals 分类,在原来的分类器后又级联了 N 个类别(不包含背景类)的二值分类器以进行更精细的目标检测。
主要特征:MultiPathNet目的是提高物体检测性能,包括定位的精确度和解决一些尺度、遮挡、集群的问题。网络的起点是Fast R-CNN,基本上,MultiPathNet就是把Fast R-CNN与DeepMask/SharpMask一起使用,但是做了一些特殊的改造,例如:skip connections、foveal regions和integral loss function。这一识别管道中的最后一步,研究院使用了一个特殊的卷积网络,称为MultiPathNet,为图片中检测到的物体添加标签。也就是说Facebook研究院的物体检测系统遵循一个三阶段的过程:(1)DeepMask生成初始物体mask(2)SharpMask优化这些mask(3)MutiPathNet识别每个mask框定的物体。
deep mask:整体来讲,给定一个image patch作为输入,DeepMask会输出一个与类别无关的mask和一个相关的score估计这个patch完全包含一个物体的概率。它最大的特点是不依赖于边缘、超像素或者其他任何形式的low-level分割,是首个直接从原始图像数据学习产生分割候选的工作。还有一个与其他分割工作巨大的不同是,DeepMask输出的是segmentation masks而不是bounding box。【masks其实就是每个像素都要标定这个像素属不属于一个物体,bounding box是比较粗略的】
Sharp mask:从名字就能看出来,主要为了是refine DeepMask的输出。DeepMask的问题在于它用了一个非常简单的前向网络产生粗略的object mask,但不是像素级别准确的分割。显然因为DeepMask采用了双线性上采样以达到和输入图像相同大小这一机制,使得物体边缘是粗略估计出来的,不准确。SharpMask的insight来自,物体精确地边缘信息可以从low-level图像中得到,与网络高层的物体信息结合,应该能够得到比较精确的边缘。因此主要的思路是,首先用DeepMask生成粗略的mask,然后把这个粗略的mask通过贯穿网络的很多refinement模块,生成最终的精细mask。
SSD网络以VGG16的前5层卷积网络作为第1个stage,然后将VGG16中的fc6和fc7两个全连接层转化为两个卷积层Conv6和Conv7作为网络的第2、第3个stage。接着在此基础上,SSD网络继续增加了Conv8、Conv9、Conv10和Conv11四层网络,用来提取更高层次的语义信息。如下图3.1所示就是SSD的网络结构。在每个stage操作中,网络包含了多个卷积层操作,每个卷积层操作基本上都是小卷积。共融合了六个特征层。
主要特征:????,
主要特征:???,
主要特征:解决多尺度同时存在时的检索问题,类似于FCNT跟踪方法,该MS-CNN也是根据观察到了卷积网络不同层得到的特征特点的不同,**对不同层的特征采用不同的利用方式。**比如conv-3的低网络层,有更小的感受野,可以进行小目标的检测;而高层如conv-5,对于大目标的检测更加准确。对于不同的输出层设计不同尺度的目标检测器,完成多尺度下的检测问题。
主要特征:改进Faster CNN的特征提取网络,也就是用PVANet来提取特征作为Faster RCNN网络中RPN部分和RoI Pooling部分的输入,改进以后的Faster RCNN可以在基本不影响准确率的前提下减少运行时间。PVANET网络的总体设计原则是:less channels with more layers,深层网络的训练问题可以通过residual(残差网络)结构来解决。(该网络使用了C.ReLU、Inception、HyperNet以及residual模块等技巧)
主要特征:人脸识别???,
主要特征:???,
主要特征:基于生成对抗网络的目标检测算法,由于卷积神经网络的本质就是对目标特征的提取,因此小目标未能被有效识别的原因就是RPN无法有效识别小目标的特征或者说小目标和大目标之间的特征存在一定的偏差,基于此情况出现了PGAN算法。该算法中采用GAN网络模拟大目标与小目标之间特征的差,训练至一定程度后,将网络训练的结果与直接提取的特征进行求和即可得到新的特征,在保证大目标特征基本不变的前提下提升了小目标的有效被识别。PGAN的效果要优于AZ-NET,,,论文不公布源码,经不起推敲?
主要特征:时间差分模型(TDM)强化学习???,
下图为passthrough原理示例(1个4x4拆成4个2x2):
conv4_3
。主要特征:将基于区域和不基于区域的方法的优点联系起来。给定一张输入图像,网络首先计算骨干网络的特征。然后,(a)添加反向连接;(b)生成 objectness prior;(c)在相应的 CNN 尺度和位置上检测物体。(一般般感觉)
主要特征:1) 引入了可以自调节感受野大小的deformable convolution和deformable RoI 模块。该模块通过额外学习一组采样偏移量来决定卷积操作和RoI pooling操作的采样位置, 通过这种方式, 网络模型可以根据输入的图谱自动调节感受野的大小的分布。2) 上面的两种deformable模块均可以无痛的添加到现有模型中。由于deformable convolution和deformable RoI 模块并不会改变原始的输入输出大小, 因此可以很轻易的替换到现有网络中, 并且可以有其他多种提升精度的trick想叠加, 在多个视觉任务上(检测, 分割)都表现出色。
主要特征:针对候选区域提取这个步骤进行加速: 使用角点提取来初步过滤大部分候选区域,
主要特征:针对 R-FCN 算法没有考虑到 region proposal 的全局信息和语义信息的问题,2017 年中科院自动化所提出 CoupleNet 算法,其在原来 R-FCN 的基础上引入了 proposal 的全局和语义信息,通过结合局部、全局以及语义的信息,提高了检测的精度。
主要特征:基于单次检测(SSD)框架开发DSOD。由于深度学习需要大量的训练数据,而针对特定任务需求的训练样本往往是有限的,通常情况下,目标检测算法会先使用在海量数据(如ImageNet数据集)上训练好的分类模型对需要训练的网络参数进行初始化(pre-train,预训练),然后使用训练样本对网络参数进行微调(fine-tune)。
但这种预训练结合微调的方法存在以下几点问题:(1)对于目标检测任务而言,由于其损失函数和目标类别分布与分类模型存在差异,其搜索/优化空间是不同的,所以使用预训练模型容易求得局部而非全局最优解。虽然利用训练数据对网络进行微调可以在一定程度上缓解这种现象,但仍然不能从本质上解决问题。(2)预训练模型一般是基于RGB图像训练得到的,对于差异较大的问题域,如针对深度图像、多光谱图像和医学影像的目标检测,要从预训练的分类模型迁移学习为目标检测模型难度非常大。(3)预训练的分类模型通常具有**较为复杂的网络结构,不仅参数规模大,其特定的网络结构也限制了目标检测模型的设计空间,难以对模型的结构进行灵活地调整。
因此,DSOD提出了一种无需预训练,直接基于训练样本来训练目标检测模型**的方法。
只有不基于region proposal的方法,才可以不使用预训练模型直接训练网络。
主要特征:Memory Network是深度学习的一个小分支–记忆网络(如(RNN、LSTM、GRU等)),
invalid anchor的定义是:和invalid ground truth的IOU大于0.3的anchor就是invalid anchor,如上图中左边的黑色框所示。
动机:
主要特征:SIN提出了结合场景信息和物体之间联系的检测方法。为了更加有效地利用这些信息,提出了结构推理网络。实验表明,在与场景高度相关的类别上检测效果很好。针对物体之间关系的实例级对物体的定位检测发挥了很重要的作用。
主要特征:通过尺度变换模块(scale-transfer module )去解决物体检测中不同目标检测时的尺度问题,基础网络采用的是DenseNet-169,DenseNet通过多层连接的方式整合低层和高层信息,其特征提取能力较强。
主要特征:尝试利用对象检测中的高阶统计量,最近对具有挑战性的细粒度视觉分类的研究表明,与一阶分类相比,高阶统计表示可以捕获更多的判别信息同时获得更好的提升。尝试在目标检测中利用高阶统计信息,为生成更多的能判别表示的候选框从而提高目标检测器性能。。
主要特征:基于Faster RCNN系列算法,希望在检测过程中可以通过利用图像中object之间的相互关系或者叫图像内容(context)来优化检测效果,这种关系既包括相对位置关系也包括图像特征关系。
主要特征:借鉴了SPP的思想并通过MSCA(multi-scale context aggregation)模块进行特征融合,
。PFPNet整体上还是one stage类型的目标检测算法,思想借鉴了SSD,速度上有保证,效果上因为引入SPP思想构造特征金字塔,相当于加宽了网络,同时MSCA模块做类似FPN的特征融合操作,最后基于多层融合特征进行预测,因此效果也是很不错的。
主要特征:基于DesNet的变种版本,适用于移动端的轻量级网络。
主要特征:用于大规模目标检测的混合知识路由模块???,
主要特征:解决检测错误经常由于目标遮挡造成的问题,
主要特征:提出多级特征金字塔网络MLFPN。基于提出的MLFPN,结合SSD,提出一种新的Single-shot目标检测模型M2Det。
参考:https://blog.csdn.net/sinat_37532065/article/details/87385302
动机:
动机:
通过在一个单个残差块内构造分层的残差类连接,为CNN提出了一种新的构建模块,即Res2Net。Res2Net 以更细粒度(granular level)表示多尺度特征,并增加每个网络层的感受野(receptive fields)范围。
相对于ResNet来说:在残差单元(residual block)中插入更多带层级的残差连接结构(hierarchical residual-like connections)。
NAS 的改进:通过随机神经网络连接的方式探索了比此前神经架构搜索更为广泛的连接形式,并实现了很好的效果。
FoveaBox是在RetinaNet目标检测网络基础上做的改进。
FoveaBox的动机来自人眼的中央凹:视野中心(物体)具有最高的视力。对于可能存在目标的每个输出空间位置,FoveaBox直接预测所有目标类别存在的置信度和边界框。
动机:
可以看到上图主要分为两个步骤,首先DPM会回归一次anchor,并且对应anchor,每个anchor有四个坐标,所以输出大小为H x W x 4,然后根据stride可以计算对应的偏移,在特征上做一个RoIConv,得到对齐的特征后,再做一次回归。
注意此处,借鉴了cascade RCNN的思路,两次回归中,正样本的IoU阈值并不相同。
步骤:
主要特征:1.证明单个FCN可以检测出遮挡严重、不同尺度的目标。2.通过多任务引入landmark localization,能进一步提升性能。
主要特征:1.速度快,2.通过整幅图进行推理得到预测结果,3.能学到目标的一般特征。
DenseBox和YOLO的区别:
1.DenseBox应用于人脸检测,相当于只有两类,而YOLO是通用检测,通常大于两类。
2.DenseBox是密集预测,对每个pixel进行预测,而YOLO先将图片进行网格化,对每个grid cell进行预测。
3.DenseBox的gt通过bbox中心圆形区域确定的,而YOLO的gt由bbox中心点落入的grid cell确定的。
主要特征:1.通过检测bbox的一对角点来检测出目标。2.提出corner pooling,来更好的定位bbox的角点。
主要特征:1.将关键点定义为极值点。2.根据几何结构对关键点进行分组。
CornerNet和ExtremeNet的区别:
1.CornerNet通过预测角点来检测目标的,而ExtremeNet通过预测极值点和中心点来检测目标的。
2.CornerNet通过角点embedding之间的距离来判断是否为同一组关键点,而ExtremeNet通过暴力枚举极值点、经过中心点判断4个极值点是否为一组。
以RetinaNet为主要结构,添加一个FSAF分支和原来的classification subnet、regression subnet并行。
主要特征:让每个实例选择最好的特征层来优化网络,因此不需要anchor来限制特征的选择。
主要特征:1.将检测和其他使用FCN的任务统一起来,容易重用这些任务的思想。2.proposal free和anchor free,减少了超参的设计。3.不使用trick,达到了单阶段检测的最佳性能。4.经过小的修改,可以立即拓展到其他视觉任务上。
主要特征:人类眼睛的中央凹:视野(物体)的中心具有最高的视觉敏锐度。FoveaBox联合预测对象中心区域可能存在的位置以及每个有效位置的边界框。由于特征金字塔的特征表示,不同尺度的目标可以从多个特征层中检测到。
FSAF、FCOS、FoveaBox的异同点:
1.都利用FPN来进行多尺度目标检测。
2.都将分类和回归解耦成2个子网络来处理。
3.都是通过密集预测进行分类和回归的。
4.FSAF和FCOS的回归预测的是到4个边界的距离,而FoveaBox的回归预测的是一个坐标转换。
5.FSAF通过在线特征选择的方式,选择更加合适的特征来提升性能,FCOS通过center-ness分支剔除掉低质量bbox来提升性能,FoveaBox通过只预测目标中心区域来提升性能。
(DenseBox、YOLO)和(FSAF、FCOS、FoveaBox)的异同点:
1.都是通过密集预测进行分类和回归的。
2.(FSAF、FCOS、FoveaBox)利用FPN进行多尺度目标检测,而(DenseBox、YOLO)只有单尺度目标检测。
3.(FSAF、FCOS、FoveaBox)将分类和回归解耦成2个子网络来得到,而(DenseBox、YOLO)分类和定位统一得到。
总结:
1.各种方法的关键在于gt如何定义
2.主要是基于关键点检测的方法和密集预测的方法来做Anchor-Free
3.本质上是将基于anchor转换成了基于point/region
anchor-free 的方法能够在精度上媲美 anchor-based 的方法,最大的功劳我觉得应该归于 FPN,其次归于 Focal Loss。(RetinaNet 赛高)。在每个位置只预测一个框的情况下,FPN 的结构对尺度起到了很好的弥补,FocalLoss 则是对中心区域的预测有很大帮助。当然把方法调 work 并不是这么容易的事情,相信有些细节会有很大影响,例如对重叠区域的处理,对回归范围的限制,如何将 target assign 给不同的 FPN level,head 是否 share 参数等等。
参考:https://github.com/hoya012/deep_learning_object_detection
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。