赞
踩
Visual Grounding任务常用的数据集有五个:RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和Flickr30K Entities
是三个从MSCOCO中选取图像和参考对象的可视化接地数据集。
MSCOCO目标检测注释中选取,属于80个目标类。
- RefCOCO有19,994幅图像,包含142,210个引用表达式,包含50,000个对象实例。
- RefCOCO+共有19,992幅图像,包含49,856个对象实例的141,564个引用表达式。
- Ref COCOg有25,799幅图像,指称表达式95,010个,对象实例49,822个。
在Ref COCO和RefCOCO +上,均是在交互游戏界面中收集,遵循train / validation / test A / test B的拆分
Ref COCO的表达式分别为120,624 / 10,834 / 5,657 / 5,095 RefCOCO+的表达式分别为120,191 / 10,758 / 5,726 / 4,889
testA中的图像包含多人,testB中的图像包含所有其他对象。RefCOCO +中的查询不包含绝对的方位词,如描述对象在图像中位置的右边。RefCOCOg在在非交互场景中收集,RefCOCOg的查询长度普遍大于RefCOCO和RefCOCO +:RefCOCO、RefCOCO +、RefCOCOg的平均长度分别为3.61、3.53、8.43。
该数据集有来自SAIAPR12的20000张图像。它在训练集、验证集和测试集中分别有54,127 / 5,842 / 60,103个引用表达式。
Flickr30K Entities有31,783张图像,包含427K个实体。Flickr30K Entities中的查询多为短名词短语.。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。