使用[36]进行每帧推断，存在两个问题。首先，表达式中的实体（如图1中的“船”、“人”、“鲸”、“海”）在编码为文本特征时会产生歧义，从而使模型无法确定哪个实体是正确的实体。其次，跨帧的动态场景也会中断接地过程（参见图1中的蓝色边界框）。因此，关键的挑战是生成健壮的文本和视觉特征，以减少歧义，然后进一步实现跨帧的准确和稳定结果。

为了解决上述问题，我们提出联合接地。我们模型的基本结构基于YOLO[28]，它同时预测边界框和置信度。置信度反映了文本特征和视觉特征之间的匹配得分。

我们设计了一种语义注意机制来获取视觉和语言的属性特征。具体来说，本文提出了一种无提案的主题注意机制，用于解析表达式中的主题词。提出了一种基于对象感知的位置注意机制来解析表达式中的位置词。特定于属性的文本特征和视觉特征之间的交互作用决定了每个视觉区域的主题得分和位置得分（请参见图6中的可视化示例）。

此外，为了提高跨帧预测的一致性，我们开发了联合接地特征学习。它以多帧为输入，利用帧间的相关性增强视觉特征，稳固训练和测试中的接地过程。进一步采用后处理策略来提高推理过程中的时间一致性。

提出的方法&模型架构

给定一个包含N个单词的表达式Q和一个包含T帧的视频I，我们的目标是在Q描述的每个帧中定位对象区域，其中bt表示第t帧中的边界框。

Semantic attention learning （语义注意力学习）

为了减少表达中的歧义，我们提出了语义注意学习来解析输入表达（目标物）中的指代线索。虽然输入表达式通常很复杂，但我们注意到，表示主题和位置的单词在区分目标方面起着关键作用。因此，我们的目标是将表达分解为主题和位置。通过更多特定于属性的文本特征，我们构建了语言和视觉之间的映射。

图2.我们的（具有语义注意的）（用于目标物指代理解的）联合接地网络。语义注意学习和联合接地特征学习的细节分别如图3和图4所示。

如图2所示，表达式Q使用由双向LSTM组成的文本编码器进行编码。第n个字的表示法是两个方向的隐藏状态的串联：

其中en是第n个单词的嵌入。属性特定的文本特征qm (m ∈ {sub., loc.}) 通过融合和可学习权重进行解析：

图3.语义注意学习的细节。

• Proposal-free subject attention. （无提案主题注意力）。

在这一部分中，我们的网络学习wsub从Q中解析主题，并以无提案的方式为每一帧生成主题注意映射 St。注意主题映射通过计算跨模态相似度，反映了视觉特征对qsub的响应，如图3所示：

其中是来自第t帧的视觉特征映射的位置x处的特征向量。利用秩损失来训练网络，其中匹配的视觉和文本特征的得分，即，应高于不匹配的值，即和。因此，目标函数是：

• Object-aware location attention.•（物体感知位置注意力）。

在这一部分中，我们的网络学习 wloc从表达式中解析位置，然后生成位置映射至qloc（位置文本特征）。学习位置注意力的关键挑战是如何将坐标与文本特征相匹配，因为位置是一个相对的概念。当我们说某事“在左边”时，我们必须给出一个参考。我们遵循[36]，最初将坐标特征编码为。计算了一个二维矩阵来模拟任意两个位置x和y之间的关系：

通过主题注意映射St，我们将参考信息注入到位置特征中,如，然后是一个FC层，将其塑造成HW×D。然后将矩阵重塑为H×W×D，作为最终位置特征。图3中显示了详细说明。与等式4类似，我们通过计算余弦相似性Lt(x)=获得位置x的位置映射。我们通过交叉熵损失来训练位置注意：

其中表示地面真值位置。

通过主题和位置注意映射，第t帧的置信度map生成为Ct = Ot⊗St⊗Lt 。回想一下，我们为每个位置x生成一个边界框预测，Ot(x)表示预测的边界框包含一个对象的可能性。

Co-grounding feature learning （联合接地特征学习）

目前，我们已经介绍了如何解析表达式中的指代线索，并在文本和视觉特征之间建立对应关系。然而，视频中的时间动态会导致不稳定的视觉特征表示，这可能会损害训练和测试中的跨模态匹配。为了增强视觉特征表示以实现更鲁棒的学习，我们提出了通过利用帧间的相关性来整合时间上下文的联合接地（co-grounding）。如图2所示，考虑来自同一视频的两帧，我们获得了带有视觉编码器的初始视觉特征。相邻帧之间的相关性可以用归一化的亲和矩阵来描述，提供空间特征的相似性度量：

然后我们将Ftb中的特征向量与M进行整合（积分），

最终的增强特征Vta 通过以下方式获得：

其中⊕ 表示沿通道维度的串联，Conv（·）表示1×1卷积运算。视觉特征Vtb 也可以通过同样的方式得到增强。图4显示了联合（co-grounding）接地特性学习的细节。

图4.关于联合接地特征学习的细节。

Post processing（后处理）

为了进一步稳定每一帧的边界框预测，我们在推理过程中根据初始预测结果设计了一种后处理方案。假设对于视频，我们对每一帧有初始的top K边界框预测，其中表示第t帧具有第i个最高置信度的边界框位置。与第t帧的边界框位置对应的视觉特征向量为。现在考虑将相邻P帧作为窗口来稳定中心帧 t∗。对于中心帧的第i个边界框，我们通过在每个参考帧中寻找最相似的边界框来稳定其置信度得分。

文章贡献

•我们提案通过在一个单阶段(one-stage )框架中的联合接地(co-grounding)来解决视频中的目标物指代理解问题。

•我们提出语义注意学习来解析目标物参考线索，包括无提案的主题注意和对象感知的位置注意。

•我们的网络适用于视频/图像接地，并在参考表达理解基准上实现了最先进的性能。

前提知识（可选）

目标物指代理解（referring expression comprehension）是vision-language领域的一个重要任务。给定一个自然语言的描述，目标指向理解期望准确地在一张图像中找到描述对应的区域。模型需要对文本和视觉领域来进行联合理解和推理。

数据集

为了评估我们的模型，我们在两个动态视频数据集(即VID-Sentence [6], Lingual OTB99 [17])和一个静态图像数据集(即RefCOCO)上进行了实验。

VID-Sentence (VID) 。该数据集由7654个带有语言描述的裁剪视频组成，并为每个查询提供时空边界框注释序列。[6]之后，数据集被拆分为6582/536/536个实例，用于训练/验证/测试。

Lingual OTB99 (LiOTB)。LiOTB数据集源自[22]中著名的OTB100对象跟踪数据集。[22]中的视频增加了对目标对象的自然语言描述。我们采用与[17]相同的协议，51个视频用于训练，其余用于测试。

RefCOCO。RefCOCO数据集收集自MSCOCO[19]中19994张图像和142210个自然语言描述。RefCOCO被分为四个子集，包括训练、验证、测试A和测试B。测试A中的图像包含多人，而测试B中的图像包含多个对象。

结果

消融研究

为了证明模型中每个成分的有效性，分别对VID、LiOTB和RefCOCO数据集进行了消融研究。我们探索不同的环境，以提供全面的分析。结果见表3和表2。请注意，我们将[36]中的单级LSTM模型视为我们的基线(Baseline)。

•Semantic attention learning(语义注意学习)。我们首先探讨了语义注意学习的贡献，而没有考虑联合特征学习。对于所有数据集，与基线结果相比，主题注意力（S-Att）带来了显著的改善。位置注意力（SL-Att）进一步提高了接地精度。总体而言，对于VID和LiOTB数据集，语义注意学习相对于基线的收益分别为4.81%和1.40%。对于RefCOCO数据集，在不同的分割设置下，我们的框架分别比基线高出3.93%、4.93%和2.18%。

表3。分别参考VID和LiOTB动态视频数据集消融研究的表达理解结果。

•Co-grounding feature learning(联合特征学习)。我们通过表3进一步分析了我们联合特征学习的贡献。在VID和LiOTB数据集上，使用基线结构(CG-Baseline)进行联合接地特征学习，分别比基线提高1.47%和1.45%。通过语义注意学习，联合接地特征学习有助于进一步提高两个数据集在每种设置下的性能（参见CG-S-Att. vs. S-Att., CG-SL-Att. vs. SLAtt.）。

•Post processing（后处理）。最后，我们说明了后处理方案的有效性。表3最后一行（CG-SL-Att.+pp）的结果表明，我们的后处理方案能够进一步改善Acc.@0.5和mIoU方面的接地结果。

Overall grounding results整体接地结果。

我们从VID数据集中选择了几个视频。与基线结果相比，SL-Att在大多数情况下提供了更准确的预测，因为语言和视觉的参考线索都被明确解析。然而，当我们在不考虑时间上下文的情况下进行每帧推断时，边界框漂移是一个问题（请参见漂移的橙色边界框）。在图5（b）中，目标自行车在前几帧中较小且模糊，这使得SL-Att模型的视觉特征容易受到攻击。在图5（c）中，左边的石头误导SL-Att，将其磨成“羚羊”。通过联合接地特征学习，视觉特征通过整合时间上下文得到增强，变得更加健壮。因此，我们获得了跨帧的一致结果（见红色框）。

图5.在VID数据集上进行视频接地的可视化结果。我们分别在绿色、蓝色、橙色和红色边界框中显示了地面真相（ground-truths）、基线结果、SL-Att结果和CG-SL-Att结果。语言查询显示在子标题中。

Visualization on attention注意力可视化。

我们在图6中展示了学习到的语言和视觉注意模式。对于每一侧，针对同一帧给出不同的查询。在图6（a）和（b）中，我们展示了位置注意有助于模型处理帧中的歧义并区分正确的边界框的示例。使用解析的主题“猴子站立分支”和“猴子停留”，模型更加关注框架中的两只猴子。然而，在描述位置的解析词“右站分支树”和“左停留”的指导下，该模型在位置注意图上显示了不同的反应，为区分正确的边界框提供了基本线索。

对于右侧的示例，输入表达式中没有主要的位置信息，导致图6（c）和（d）中出现类似的位置图。句子中出现的多个实体，如“鲸鱼”、“船”，使基线模型混淆了哪个主题对地面是正确的（参见图6（c）（d）中的蓝色边框）。在我们的模型中，语言的主体注意力有效地排除了表达中其他实体的影响，使图6（c）中的“船”和图6（d）中的“身体”清晰可见。这进一步导致在受试者注意力地图上对视觉特征做出相应的高响应，然后进行令人满意的接地预测（见红色框）。

图6。可视化我们框架的注意力模式。图像上方显示了语言的主题和位置注意模式。我们标记每个单词的注意值。视觉特征的注意模式显示为叠加在原始图像上的热图。越红，注意力就越大。此外，我们分别在蓝色和红色边界框中显示基线和SL-Att的接地结果。地面真相以绿色显示。（最好是彩色的。）

Failure case analysis and future work故障案例分析和未来工作。

我们在图7中展示了一些典型的失败案例，以说明我们的模型的局限性，以及视频接地主题面临的挑战。（1）由于多阶推理涉及多个实体和关系概念，因此对于单阶段指称表达理解来说是一个挑战。如图7（a）所示，我们的模型很难定位有红色烟雾的飞机，然后选择顶部的飞机。（2）运动信息没有被明确地探索和用作基础线索。如图7（b）所示，我们无法仅通过观察静态帧来确定哪个“斑马”正在“移动”。（3）语言查询可能不适用于所有帧。在图7（c）中，在某些帧中，基本事实不在“中间”。如何进一步解决动态场景和表达所带来的歧义仍然值得探索。

图7。错误情况。地面真相是绿色的，我们的结果是红色的。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/448504