Visual Grounding任务常用数据集介绍RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和Flickr30K Entities

作者：weixin_40725706 | 2024-04-18 22:14:05

踩

refcoco

Visual Grounding任务常用的数据集有五个：RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和Flickr30K Entities

RefCOCO、RefCOCO+、RefCOCOg：

是三个从MSCOCO中选取图像和参考对象的可视化接地数据集。
MSCOCO目标检测注释中选取，属于80个目标类。

RefCOCO有19,994幅图像，包含142,210个引用表达式，包含50,000个对象实例。
RefCOCO+共有19,992幅图像，包含49,856个对象实例的141,564个引用表达式。
Ref COCOg有25,799幅图像，指称表达式95,010个，对象实例49,822个。

在Ref COCO和RefCOCO +上，均是在交互游戏界面中收集，遵循train / validation / test A / test B的拆分

Ref COCO的表达式分别为120,624 / 10,834 / 5,657 / 5,095 RefCOCO+的表达式分别为120,191 / 10,758 / 5,726 / 4,889

testA中的图像包含多人，testB中的图像包含所有其他对象。RefCOCO +中的查询不包含绝对的方位词，如描述对象在图像中位置的右边。RefCOCOg在在非交互场景中收集，RefCOCOg的查询长度普遍大于RefCOCO和RefCOCO +：RefCOCO、RefCOCO +、RefCOCOg的平均长度分别为3.61、3.53、8.43。

ReferItGame

该数据集有来自SAIAPR12的20000张图像。它在训练集、验证集和测试集中分别有54,127 / 5,842 / 60,103个引用表达式。

Flickr30K Entities

Flickr30K Entities有31,783张图像，包含427K个实体。Flickr30K Entities中的查询多为短名词短语.。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/448508