赞
踩
介绍Pascal VOC数据集:
给定自然图片, 从中识别出特定物体。
待识别的物体有20类:
有以下几个task:
* Classification(略过)
* Detection: 将图片中所有的目标用bounding box(bbox)框出来
* Segmentation: 将图片中所有的目标分割出来
* Person Layout(略过)
接下来本文只介绍Detection与Segmentation相关的内容。
<annotation>
<folder>VOC2007</folder>
<filename>009961.jpg</filename>
<source>
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr</image>
<flickrid>334575803</flickrid>
</source>
<owner>
<flickrid>dictioncanary</flickrid>
<name>Lucy</name>
</owner>
<size><!--image shape-->
<width>500</width>
<height>374</height>
<depth>3</depth>
</size>
<segmented>0</segmented><!--是否有分割label-->
<object>
<name>dog</name> <!--类别-->
<pose>Unspecified</pose><!--物体的姿态-->
<truncated>0</truncated><!--物体是否被部分遮挡(>15%)-->
<difficult>0</difficult><!--是否为难以辨识的物体, 主要指要结体背景才能判断出类别的物体。虽有标注, 但一般忽略这类物体-->
<bndbox><!--bounding box-->
<xmin>69</xmin>
<ymin>4</ymin>
<xmax>392</xmax>
<ymax>345</ymax>
</bndbox>
</object>
</annotation>
提交的结果存储在一个文件中, 每行的格式为:
<image identifier> <confidence> <left> <top> <right> <bottom>
例如:
comp3_det_test_car.txt:
000004 0.702732 89 112 516 466
000006 0.870849 373 168 488 229
000006 0.852346 407 157 500 213
000006 0.914587 2 161 55 221
000008 0.532489 175 184 232 201
t in [t1, ..., tn]
recall>=t
的最大presicision aps = []
for t in np.arange(0., 1.1, 0.1):#将recall分为多个区间
# 在所有 recall > t对应的precision中找出最大值
mask = tf.greater_equal(recall, t)
v = tf.reduce_max(tf.boolean_mask(precision, mask))
aps.append(v / 11.)
# 得到其平均值
ap = tf.add_n(aps)
return ap
代码给出的是voc07的计算方式, voc2010在recall区间区分上有变化: 假如有M个正样例,则将recall划分为[1/M, 1/(M - 1), 1/(M - 2), ... 1]
。其余步骤不变。
分割的label由两部分组成:
* class segmentation: 标注出每一个像素的类别
* object segmentation: 标注出每一个像素属于哪一个物体
每类的precision和总体precision.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。