当前位置:   article > 正文

Visual Reasoning | GQA Dataset

gqa dataset

参考博客:
https://blog.csdn.net/hester_hester/article/details/103238649
https://zhuanlan.zhihu.com/p/64183181

CLEVR虽然消除了dataset bias,但是人工合成的图像和问题组成,多样性较低,类和属性较少,容易使模型记住所有组合。
因此提出GQA,由真实图像组成,并在一个大的语义空间中运行,更具挑战性。

GQA数据集围绕真实图像推理、场景理解和合成问题回答等一系列任务,由113K张图像和22M个不同的问题组成。该数据集衡量了一些列推理技能。reasoning skills such as object and attribute recognition, transitive relation tracking, spatial reasoning, logical inference and comparisons.

Introduction

三个贡献:
在这里插入图片描述

Dataset

借鉴了CLEVR数据集, structured representations and detailed annotations for images and questions
建立了scene graph来表示物体,属性,和关系。同时和CLEVR一样也有functional program
在这里插入图片描述

具体的生成方式,并且提出一系列metrics,在GQA task进行综合评估
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/936033
推荐阅读
相关标签
  

闽ICP备14008679号