赞
踩
缺点
缺点
从功能模块来讲,Faster RCNN 主要包括 4 部分:
虚线表示仅仅在训练时有的步骤
RPN 部分的输入、输出如下:
利用 Scale 和 Ratio 生成同一个点对应的 9 个 Anchors
RPN 的真值
RPN 的预测量
分类网络
torch.view()
函数将特征映射到
2
×
333
×
50
2×333×50
2×333×50,这样第一维仅仅是一个 Anchor 的前景背景得分,并利用 nn,Softmax(dim=0)
函数进行概率计算,得到的特征再变换到
18
×
37
×
50
18×37×50
18×37×50 的维度,最终输出的是每个 Anchor 属于前景与背景的概率回归网络
(1) Anchor 生成
(2) Anchor 与标签的匹配
(3) Anchor 的筛选
(4) 求解回归偏移真值
NMS 生成 Proposal
Why RoI Pooling?
假设当前 RoI 大小为 332 × 332 332×332 332×332,使用 VGGNet 的全连接层,其所需的特征向量维度为 512 × 7 × 7 512×7×7 512×7×7,由于目前的特征图通道数为 512,Pooling 的过程就是如何获得 7 × 7 7×7 7×7 大小区域的特征
RoI Pooling
疑问:如果 RoI 过小,对应特征图小于 7 × 7 7\times7 7×7 怎么办?这个暂时不清楚具体是怎么做的,但肯定可以用最近邻差值 / 双线性插值 / 池化进行上采样
Faster RCNN 之所以生命力如此强大,应用如此广泛,离不开以下几个特点:
当然,原始的 Faster RCNN 也存在一些缺点,而这些缺点也恰好成为了后续学者优化改进的方向,总体来看,可以从以下 6 个方面考虑:
融合多层特征
候选区域生成: 在 RPN 网络中使用 RoI Pooling
HyperNet 融合了多层特征的网络有如下 3 点好处:
Mask RCNN 与 Faster RCNN 主要有 3 点区别:
Motivation
R-FCN 网络结构
位置敏感得分图为什么有效? 假如某个 RoI 最终分类为 i i i,那么说明该 RoI 最终输出的 k × k × ( c + 1 ) k\times k\times (c+1) k×k×(c+1) 特征图中通道 i i i 对应的 k × k k\times k k×k 特征图激活值最大,进而说明 k 2 k^2 k2 个得分图上该 RoI 各个区域对应的激活值比较大。下图的实验进一步证明了这点:
矛盾的超参:IoI 阈值
实验现象
Cascade RCNN
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。