目标检测之RCNN,Fast RCNN,Faster RCNN_rcnn流程图

作者：小丑西瓜9 | 2024-02-19 09:36:09

踩

rcnn流程图

R-CNN

Rich feature hierarchies for accurate object detection and semantic segmentation-CVPR2014
在这里插入图片描述

训练过程

准备region proposal。对于训练集中的所有图像，采用selective search方式来获取，最后每个图像得到2000个region proposal。
准备正负样本。如果某个region proposal和当前图像上的所有ground truth中重叠面积最大的那个的IOU大于等于0.5，则该region proposal作为这个ground truth类别的正样本，否则作为负样本。因为VOC一共包含20个类别，所以这里region proposal的类别为20+1=21类，1表示背景。
预训练。这一步主要是因为检测问题中带标签的样本数据量比较少，难以进行大规模训练。采用的是AlexNet来学习特征，包含5个卷积层和2个全连接层,利用ImageNet数据集进行预训练，其实就是利用大数据集训练一个分类器。
fine-tuning。将2中得到的样本进行尺寸变换，使得大小一致，这是由于2中得到的region proposal大小不一，所以需要将region proposal变形成227x227。本文中对所有不管什么样大小和横纵比的region proposal都直接拉伸到固定尺寸。然后作为3中预训练好的网络的输入，继续训练网络，继续训练其实就是迁移学习。迁移的时候要做修改，将最后一个全连接层的输出由1000改成21，其他结构不变。训练结束后保存f7的特征。
针对每个类别训练一个SVM的二分类器。输入是f7的特征，f7的输出维度是2000x4096，输出的是是否属于该类别，训练结果是得到SVM的权重矩阵W，W的维度是4096x20。这里负样本的选定和前面的有所不同，将IOU的阈值从0.5改成0.3，即IOU<0.3的是负样本，正样本是Ground Truth。IOU的阈值选择和前面fine-tuning不一样，这里链接3的解释是：前面fine-tuning需要大量的样本，所以设置成0.5会比较宽松。而在SVM阶段是由于SVM适用于小样本，所以设置0.3会更严格一点。
回归。用pool5的特征6x6x256维和bounding box的ground truth来训练回归，每种类型的回归器单独训练。输入是pool5的特征，以及每个样本对的坐标和长宽值。另外只对那些跟ground truth的IOU超过某个阈值且IOU最大的proposal回归，其余的region proposal不参与。具体参考链接3。详细说一下：对于某个region proposal：R，以及其对应的Ground truth：G，我们希望预测结果是：P，那么我们肯定希望P尽可能接近G。这里通过对pool5层的特征X做线性变换WX得到变换函数F（X），这些变换函数作用于R的坐标达到回归的作用（包括对x，y的平移以及对w，h的缩放）。因此损失函数可以表达为：R和G的差距减去P和G的差距要尽可能小。

测试过程

输入一张图像，利用selective search得到2000个region proposal。
对所有region proposal变换到固定尺寸并作为已训练好的CNN网络的输入，得到f7层的4096维特征，所以f7层的输出是2000x4096。
对每个类别，采用已训练好的这个类别的svm分类器对提取到的特征打分，所以SVM的weight matrix是4096xN，N是类别数，这里一共有20个SVM，N=20注意不是21。得分矩阵是2000x20，表示每个region proposal属于某一类的得分。
采用non-maximun suppression（NMS）对得分矩阵中的每一列中的region proposal进行剔除，就是去掉重复率比较高的几个region proposal，得到该列中得分最高的几个region proposal。NMS的意思是：举个例子，对于2000*20中的某一列得分，找到分数最高的一个region proposal，然后只要该列中其他region proposal和分数最高的IOU超过某一个阈值，则剔除该region proposal。这一轮剔除完后，再从剩下的region proposal找到分数最高的，然后计算别的region proposal和该分数最高的IOU是否超过阈值，超过的继续剔除，直到没有剩下region proposal。对每一列都这样操作，这样最终每一列（即每个类别）都可以得到一些region proposal。
用N=20个回归器对第4步得到的20个类别的region proposal进行回归，要用到pool5层的特征。pool5特征的权重W是在训练阶段的结果，测试的时候直接用。最后得到每个类别的修正后的bounding box。

缺点

R-CNN流程较多，包括region proposal的选取，训练卷积神经网络（softmax classifier，log loss），训练SVM（hinge loss）和训练 regressor（squared loss）
在训练SVM和回归的时候需要用网络训练的特征作为输入，特征保存在磁盘上再读入的时间消耗还是比较大的,占用磁盘空间也大。这使得训练时间非常长（84小时）
在训练卷积神经网络的过程中对每个region proposal都要计算卷积，这其中重复的太多不必要的计算，试想一张图像可以得到2000多个region proposal，大部分都有重叠，因此基于region proposal卷积的计算量太大，而这也正是之后Fast R-CNN主要解决的问题。

Fast RCNN

Fast RCNN-ICCV2015
在这里插入图片描述

算法的主网络是VGG16

训练过程

输入是224x224，经过5个卷积层和2个降采样层（这两个降采样层分别跟在第一和第二个卷积层后面）后，进入ROIPooling层，该层是输入是conv5层的输出和region proposal，region proposal的个数差不多2000。然后再经过两个都是output是4096的全连接层。最后分别经过output个数是21和84的两个全连接层（这两个全连接层是并列的，不是前后关系），前者是分类的输出，代表每个region proposal属于每个类别（21类）的得分，后者是回归的输出，代表每个region proposal的四个坐标。最后是两个损失层，分类的是softmaxWithLoss，输入是label和分类层输出的得分；回归的是SmoothL1Loss，输入是回归层的输出和target坐标及weight。

测试过程

与训练基本相同，最后两个loss层要改成一个softma层，输入是分类的score，输出概率。最后对每个类别采用NMS（non-maximun suppression）。

算法详解

fast R-CNN的流程图如下，网络有两个输入：图像和对应的region proposal。其中region proposal由selective search方法得到，没有表示在流程图中。对每个类别都训练一个回归器，且只有非背景的region proposal才需要进行回归。
在这里插入图片描述
ROI pooling：ROI Pooling的作用是对不同大小的region proposal，从最后卷积层输出的feature map提取大小固定的feature map,因为全连接层的输入需要尺寸大小一样，所以不能直接将不同大小的region proposal映射到feature map作为输出，需要做尺寸变换。VGG16网络使用H=W=7的参数，即将一个hxw的region proposal分割成HxW大小的网格，然后将这个region proposal映射到最后一个卷积层输出的feature map，最后计算每个网格里的最大值作为该网格的输出，所以不管ROI pooling之前的feature map大小是多少，ROI pooling后得到的feature map大小都是HxW。

Fast RCNN主要有3个改进：

1、卷积不再是对每个region proposal进行，而是直接对整张图像，这样减少了很多重复计算。原来RCNN是对每个region proposal分别做卷积，因为一张图像中有2000左右的region proposal，肯定相互之间的重叠率很高，因此产生重复计算。
2、用ROI pooling进行特征的尺寸变换，因为全连接层的输入要求尺寸大小一样，因此不能直接把region proposal作为输入。
3、将regressor放进网络一起训练，每个类别对应一个regressor，同时用softmax代替原来的SVM分类器。

在实际训练中，每个mini-batch包含2张图像和128个region proposal（或者叫ROI），也就是每张图像有64个ROI。然后从这些ROI中挑选约25%的ROI，这些ROI和ground truth的IOU值都大于0.5。另外只采用随机水平翻转的方式增加数据集。
测试的时候则每张图像大约2000个ROI。

损失函数的定义是将分类的loss和回归的loss整合在一起，其中分类采用log loss，即对真实分类（下图中的pu）的概率取负log，而回归的loss和R-CNN基本一样。分类层输出K+1维，表示K个类和1个背景类。
在这里插入图片描述

总结

Fast RCNN将RCNN众多步骤整合在一起，不仅大大提高了检测速度，也提高了检测准确率。其中，对整张图像卷积而不是对每个region proposal卷积，ROI Pooling，分类和回归都放在网络一起训练的multi-task loss是算法的三个核心。

Faster RCNN

参考我的博客
在这里插入图片描述

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】