赞
踩
参考博客:
https://blog.csdn.net/hester_hester/article/details/103238649
https://zhuanlan.zhihu.com/p/64183181
CLEVR虽然消除了dataset bias,但是人工合成的图像和问题组成,多样性较低,类和属性较少,容易使模型记住所有组合。
因此提出GQA,由真实图像组成,并在一个大的语义空间中运行,更具挑战性。
GQA数据集围绕真实图像推理、场景理解和合成问题回答等一系列任务,由113K张图像和22M个不同的问题组成。该数据集衡量了一些列推理技能。reasoning skills such as object and attribute recognition, transitive relation tracking, spatial reasoning, logical inference and comparisons.
三个贡献:
借鉴了CLEVR数据集, structured representations and detailed annotations for images and questions
建立了scene graph来表示物体,属性,和关系。同时和CLEVR一样也有functional program
具体的生成方式,并且提出一系列metrics,在GQA task进行综合评估
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。