赞
踩
文章地址:Deep Generative Probabilistic Graph Neural Networks for Scene Graph Generation.
图像视觉理解是计算机视觉中一个很重要的任务,理解一个场景并不仅仅是识别出场景中的所有物体,物体之间的相互关系也是很重要的信息。为了表征这种语义,一些论文引入了场景图(scene graph)的概念,其中的节点表示对象,边则表示对象之间的关系。
如上图所示,图片提供的信息除了碗中有橘子和苹果等水果之外,还有碗在桌子上,水果在碗中这一信息;右图则强调小女孩骑在马上,这种隐藏的逻辑关系对于帮助理解图像信息有重要的作用,文章就是针对这一问题提出了一个新的算法(DG-PGNN),来帮助更好的生成场景图。
以往的方法先是学习了这些边和节点的表达,再用这些嵌入来获取各个节点和边的类型。但是这些方法并不能利用图像中丰富的结构信息,本文作者提出了适合表征 Scene Graph 的 Probabilistic Graph Network(PGN)。在 PGN 中,边和节点都被表示成了用于 CNN 的特征向量,边和节点的种类则被表示成概率质量函数(probability mass function,PMF)。
其算法的实现步骤如下:
文章主要涉及的概念与方法如下:
概率图网络:PGN 是基于一个图(文中为场景图)G = (V, E) 建成的。其中 V 为节点的集合,E 为边的集合。假设边的种类有 K 种,那么就有 K 个 E_k(k ∈ {1, . . . , K}) 矩阵,每个矩阵中包含了某条边属于某个类别的可能性,如 E_k(u, v) 就表示从节点 u 到节点 v 的边可以表示为 k 的可能性。
Q-Learning:建立一个包含了所有的节点和所有边的Complete PGN ,为 Q-Learning 过程提供原始的特征向量和 PMF(用于更新),假设当前状态(某个 Partial PGN)的状态为 s,那么 Q-Learning 的输入是这样的:
这里的 g 是整个图像的特征向量(Complete PGN 建立过程中 152 层 ResNet 的最后一层输出),置信度矩阵 p = [p(1), …, p(N)],p(j) 代表第 j 个框的置信度(目标检测过程中),d 表示了当前节点的状态,如 d(v) = 1 则表示节点 v 已经被选择过,0 则表示其还没被选择过。o^n 和 o^e 都是目前 PGN 的特征向量(初始化为 0 向量),h 和 n 则分别为边向量和节点向量。
目标函数:
其中 r 为当前 reward,A 表示可以选择的动作,(s + v)表示加入节点 v 后的。因此,参数的更新过程为:
数据集:视觉基因组(VG)包含108077个图像。 注释提供主谓宾三元组本文。训练和测试拆分包含70%和30%的图像。
评价指标:Top-K recall (Rec@K)
消融实验:分别进行了不使用DG-PGNN算法,使用DG-PGNN算法但是不使用注解, 使用DG-PGNN算法,和使用DG-PGNN算法且用VGG代替ResNet
实验结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。