AAAI-场景图生成的深度生成概率图神经网络Deep Generative Probabilistic Graph Neural Networks for Scene Graph Generation

作者：知新_RL | 2024-08-05 11:42:25

踩

deep generative probabilistic graph neural networks for scene graph generati

文章地址：Deep Generative Probabilistic Graph Neural Networks for Scene Graph Generation.

简介

图像视觉理解是计算机视觉中一个很重要的任务，理解一个场景并不仅仅是识别出场景中的所有物体，物体之间的相互关系也是很重要的信息。为了表征这种语义，一些论文引入了场景图（scene graph）的概念，其中的节点表示对象，边则表示对象之间的关系。
在这里插入图片描述
如上图所示，图片提供的信息除了碗中有橘子和苹果等水果之外，还有碗在桌子上，水果在碗中这一信息；右图则强调小女孩骑在马上，这种隐藏的逻辑关系对于帮助理解图像信息有重要的作用，文章就是针对这一问题提出了一个新的算法(DG-PGNN)，来帮助更好的生成场景图。

工作创新

提出了一个新的算法（DG-PGNN）用于表示与场景图相关的不确定性
一种新的场景图构造算法，在完全可区分的概率框架中结合了深度特征学习和概率消息传递。
第一次显式利用图像的文本信息来为图像构建场景图。

以往的方法先是学习了这些边和节点的表达，再用这些嵌入来获取各个节点和边的类型。但是这些方法并不能利用图像中丰富的结构信息，本文作者提出了适合表征 Scene Graph 的 Probabilistic Graph Network（PGN）。在 PGN 中，边和节点都被表示成了用于 CNN 的特征向量，边和节点的种类则被表示成概率质量函数（probability mass function，PMF）。

其算法的实现步骤如下：

首先利用 Deep Q-Learning 框架学习最优排序，从而依次在当前的 partial PGN 上增加新节点，
然后通过RL选择一个新节点，RL 的奖励 reward 则根据输入图像的 ground-truth 场景图进行定义。
添加节点后，通过消息传递来更新当前 PGN 的特征向量。使用更新的特性对 PMFs 进行微调。

文章主要涉及的概念与方法如下：

概率图网络：PGN 是基于一个图（文中为场景图）G = (V, E) 建成的。其中 V 为节点的集合，E 为边的集合。假设边的种类有 K 种，那么就有 K 个 E_k(k ∈ {1, . . . , K}) 矩阵，每个矩阵中包含了某条边属于某个类别的可能性，如 E_k(u, v) 就表示从节点 u 到节点 v 的边可以表示为 k 的可能性。

Q-Learning：建立一个包含了所有的节点和所有边的Complete PGN ，为 Q-Learning 过程提供原始的特征向量和 PMF（用于更新），假设当前状态（某个 Partial PGN）的状态为 s，那么 Q-Learning 的输入是这样的：
在这里插入图片描述这里的 g 是整个图像的特征向量（Complete PGN 建立过程中 152 层 ResNet 的最后一层输出），置信度矩阵 p = [p(1), …, p(N)]，p(j) 代表第 j 个框的置信度（目标检测过程中），d 表示了当前节点的状态，如 d(v) = 1 则表示节点 v 已经被选择过，0 则表示其还没被选择过。o^n 和 o^e 都是目前 PGN 的特征向量（初始化为 0 向量），h 和 n 则分别为边向量和节点向量。

目标函数：
在这里插入图片描述
其中 r 为当前 reward，A 表示可以选择的动作，(s + v)表示加入节点 v 后的。因此，参数的更新过程为：

实验部分

数据集：视觉基因组（VG）包含108077个图像。注释提供主谓宾三元组本文。训练和测试拆分包含70％和30％的图像。

评价指标：Top-K recall (Rec@K)

消融实验：分别进行了不使用DG-PGNN算法，使用DG-PGNN算法但是不使用注解，使用DG-PGNN算法，和使用DG-PGNN算法且用VGG代替ResNet

实验结果：
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/932219