当前位置:   article > 正文

Visual Grounding任务常用数据集介绍RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和Flickr30K Entities

refcoco

Visual Grounding任务常用的数据集有五个:RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和Flickr30K Entities

RefCOCO、RefCOCO+、RefCOCOg:

是三个从MSCOCO中选取图像和参考对象的可视化接地数据集。
MSCOCO目标检测注释中选取,属于80个目标类。

  • RefCOCO有19,994幅图像,包含142,210个引用表达式,包含50,000个对象实例。
  • RefCOCO+共有19,992幅图像,包含49,856个对象实例的141,564个引用表达式。
  • Ref COCOg有25,799幅图像,指称表达式95,010个,对象实例49,822个。

在Ref COCO和RefCOCO +上,均是在交互游戏界面中收集,遵循train / validation / test A / test B的拆分

Ref COCO的表达式分别为120,624 / 10,834 / 5,657 / 5,095 RefCOCO+的表达式分别为120,191 / 10,758 / 5,726 / 4,889

testA中的图像包含多人,testB中的图像包含所有其他对象。RefCOCO +中的查询不包含绝对的方位词,如描述对象在图像中位置的右边。RefCOCOg在在非交互场景中收集,RefCOCOg的查询长度普遍大于RefCOCO和RefCOCO +:RefCOCO、RefCOCO +、RefCOCOg的平均长度分别为3.61、3.53、8.43。

ReferItGame

该数据集有来自SAIAPR12的20000张图像。它在训练集、验证集和测试集中分别有54,127 / 5,842 / 60,103个引用表达式。

Flickr30K Entities

Flickr30K Entities有31,783张图像,包含427K个实体。Flickr30K Entities中的查询多为短名词短语.。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/448508
推荐阅读
相关标签
  

闽ICP备14008679号