赞
踩
现实生活中的招牌各种各样,千变万化。针对初赛,在现实世界中,选取100类常见的招牌信息,如肯德基、麦当劳、耐克等。将最终的分类结果上传到比赛平台。
数据典型图像
a.样本类别多样性
b.每类样本数据多样化
思路:初赛难度不大,通过简单的数据增强,将图像经过ResNet50提取特征,经过FC+softmax或者SVM就能达到很好的效果,最终提交结果准确率为0.994. 成功通过初赛。(可以尝试一些经典机器学习分类器、gcforst等方法,每一种都能有不错的效果,可能初赛难度不大)
复赛赛题
1、赛题详情:
针对检测+分类任务,我们提供9000张带有位置信息和类别信息的图像数据用于训练,4351张图像用于评估测试。该数据集全部来源于百度地图淘金,选取了60类常见品牌
类别。比如,肯德基,星巴克,耐克等。
2、数据格式:
所有数据打包成一个文件,整个压缩包中包含4个文件
序号 | 名称 | 说明 |
1 | train | 训练数据文件夹,包含所有训练图像 |
2 | train.txt | 训练数据的label对照文件,每一行为图片名+label,例如: filename label x_min y_min x_max y_max 注:每行字段采用空格分隔 label:该矩形框对应的类别信息【1~60类】 x_min/y_min:对应矩形区域的左上顶点x/y信息 x_max/y_max:对应矩形区域的右下定点x/y信息 |
3 | test | 测试数据文件夹,包含所有测试数据 |
4 | test.txt | 测试数据的文件列表 |
3、提交说明:
(一)提交结果文件格式
每行对应一条检测结果:filename label score x_min y_min x_max y_max
注:每行字段采用空格分隔
label:该矩形框对应的类别信息【1~60类】
x_min/y_min:对应矩形区域的左上顶点x/y信息
x_max/y_max:对应矩形区域的右下定点x/y信息
注意事项
a)提交结果共七列,字段间的分割符为空格;
b)提交结果不包含列的名称;
c)提交结果文件的格式要求为csv;
d)不符合格式要求的提交结果,将被评为无效成绩,以“-”标识。
4、评价指标:
平台根据参赛者提交的结果文件,计算mAP。根据mAP进行排名,并最终选出优胜者参加答辩环节。
注:mAP计算中,Iou阈值采用0.5
这种比赛只要求精度对时间没有要求,所以最佳实践肯定是双阶段的网络。采用Faster RCNN+ FPN+ Deformable结构,提升双阶段的效果。通过可以对无广告牌区域进行去除,然后调整图像的大小达到扩充数据集效果、加上一些旋转、亮度等变换来做数据增强。
其中:FPN可以提取多尺度特征,
来自 Facebook 的特征金字塔网络 Feature Pyramid Networks(FPN)。FPN 主要解决的是物体检测中的多尺度问题,通过简单的网络连接改变,在基本不增加原有模型计算量情况下,大幅度提升了小物体检测的性能。我们将从论文背景,论文思想,结果与结论几方面探讨此论文。在物体检测里面,有限计算量情况下,网络的深度(对应到感受野)与 stride 通常是一对矛盾的东西,常用的网络结构对应的 stride 一般会比较大(如 32),而图像中的小物体甚至会小于 stride 的大小,造成的结果就是小物体的检测性能急剧下降。传统解决这个问题的思路包括:(1)多尺度训练和测试,又称图像金字塔,如图 1(a) 所示。目前几乎所有在 ImageNet 和 COCO 检测任务上取得好成绩的方法都使用了图像金字塔方法。然而这样的方法由于很高的时间及计算量消耗,难以在实际中应用。(2)特征分层,即每层分别预测对应的 scale 分辨率的检测结果。如图 1(c) 所示。SSD 检测框架采用了类似的思想。这样的方法问题在于直接强行让不同层学习同样的语义信息。而对于卷积神经网络而言,不同深度对应着不同层次的语义特征,浅层网络分辨率高,学的更多是细节特征,深层网络分辨率低,学的更多是语义特征。
图1
因而,目前多尺度的物体检测主要面临的挑战为:
针对这些问题,提出了特征金字塔网络 FPN,如图 1(d) 所示,网络直接在原来的单网络上做修改,每个分辨率的 feature map 引入后一分辨率缩放两倍的 feature map 做 element-wise 相加的操作。通过这样的连接,每一层预测所用的 feature map 都融合了不同分辨率、不同语义强度的特征,融合的不同分辨率的 feature map 分别做对应分辨率大小的物体检测。这样保证了每一层都有合适的分辨率以及强语义特征。同时,由于此方法只是在原网络基础上加上了额外的跨层连接,在实际应用中几乎不增加额外的时间和计算量。
同样的广告牌在图像中可能呈现出不同的大小、姿态、视角变化甚至非刚体形变,Deformable可以适应这些复杂的广告牌几何形变。提升双阶段的效率。
同时代码使用可以将图像分到几个不同的尺度,通过不同尺度的检测结果非极大值抑制合并得到行精细的结果。
结果:
可以看出网络有抗形变性能,经测试:调整后的网络能达到0.81的mAP.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。