赞
踩
当前的视频检索工作都基于一个基于实例的假设,即只有一个标题与查询视频相关,反之亦然。我们证明,这种假设导致的是性能的比较,而不是模型的检索能力。我们建议转向语义相似性视频检索,其中(i)多个视频/字幕可以被视为同等相关,且其相对排名不会影响方法的报告性能,(ii)检索到的视频/字幕根据其与查询的相似性进行排名。我们提出了几种代理来估计大规模检索数据集中的语义相似性,而不需要额外的注释。我们对三种常用的视频检索数据集(MSR-VTT、YouCook2和EPIC-KITCHENS)进行了分析。
使用语言搜索视频也成为一个热门的研究问题,称为视频检索。
本文中,我们假设即字幕的唯一相关视频是与该视频一起收集的视频。
我们对这个假设进行了第一次批判性分析,提出了语义相似性相关性,用于评估和训练。
如图1所示,当前的方法是基于实例的检索,即给定一个查询标题,如“一个人在做折纸教程”,只有一个折纸视频被认为是正确的检索视频。事实上,数据集中的许多视频可以类似于相同的点。检索此类视频的顺序不应影响方法的评价。相反,我们建议利用视频和字幕之间的语义相似性,我们给不同形式的项目之间的相似性评分。这允许多个视频被认为与标题相关,并提供了一种从最相似到最不相似的视频排名方法。
我们的贡献可以概括为:
(i)揭示了当前视频检索基准和评估协议中实例检索的不足之处。
(ii)我们提出了基于语义相似度的视频检索,用于评价和训练,其中视频根据与标题的相似度进行排名,允许多个视频被认为是相关的,反之亦然。
(iii)为了避免大量注释工作,我们提出了几个代理来预测语义相似性,使用标题到标题匹配。
(iv)我们分析了三个基准数据集,使用我们的语义相似度代理,注意到它们对当前基线和评估的影响。
我们回顾了使用语义知识的图像检索工作,然后讨论了当前的视频检索方法。
大多数研究集中在基于实例的检索上,少数研究基于语义的图像检索。
语义相关性不能仅从图像中收集,因为它需要地点、社会阶级的知识。
以前的评判所有这些作品仍然使用二元相关性进行培训和评价,即。图像/标题可以是相关的,也可以是不相关的。
早期的视频检索工作简单地扩展了图像检索方法,即对每个视频进行临时聚合帧。这些工作被归因于定义跨模态视频检索问题和标准评价指标。在定性结果方面,他们认为如果能检索到多个相关视频,那么模型就更优秀,尽管定量指标只评估了相应的视频。
随着更大的数据集的出现,方法集中在使用自我监督,句子消除歧义,多层次编码,混合“专家”特征从预训练模型和弱监督学习从大规模数据集。这些工作对基于实例的视频检索进行了培训和评价。在训练中使用语义相似度、使用类知识将标题聚类成相关集、字幕损失,然而,这项工作是使用基于实例的检索来评估的。
基于实例的视频检索(IVR)假设存在的问题
视频集合X 字幕集 Y 它们之间的关系是一对一的
我们提出了几个代理度量视频和字幕之间的语义相似度,不需要额外的注释工作,并使用外部语料库或知识库。
没太明白这块啊
差不多意思就是
如果一种方法可能随机地在检索列表中把粗体标题排在前面,那么它将被认为是最先进的,而另一种方法可能会受到不公平的惩罚。这些有效的字幕包含同义词,句子结构的变化或更多/更少的描述视频的细节。
也就是只有一个最相关,一但这个被选定最相关,那么其他的就会被惩罚然后降低相关性。
在本文中,我们提出从基于实例的视频检索(IVR)转向利用视频和字幕之间的语义相似性的视频检索,用于视频到文本和文本到视频的检索。我们首先定义了语义相似度视频检索(SVR),然后提出了一个评价协议,以及在训练过程中引入语义相似度的方法。最后,在第4.4节中,我们提出了多种方法来估计标题的语义相似度,而不需要手动标注。
给定一组视频X和一组相应的字幕Y。我们定义了一个语义相似度函数, S S ( x i , y j ) → [ 0 , 1 ] S_S(x_i, y_j)→[0,1] SS(xi,yj)→[0,1],它计算一个连续的分数,捕获任何(视频,标题)对之间的相似度。与IVR类似,如果标题与视频无关,则 S S ( x i , y j ) = 0 S_S(x_i, y_j)=0 SS(xi,yj)=0,最大相关为1。与IVR不同的是,多个字幕可以与视频相似,视频也可以类似。此外,sscan模型的连续值不同程度的相似度。如果 S S ( x i , y j ) S_S(x_i, y_j) SS(xi,yj)> S S ( x i , y k ) S_S(x_i, y_k) SS(xi,yk)也就是 y j y_j yj比 y k y_k yk字幕更适合视频。因此,如果 S S ( x i , y j ) S_S(x_i, y_j) SS(xi,yj)= S S ( x i , y k ) S_S(x_i, y_k) SS(xi,yk),那么这两个标题都被认为是同等相关的,以任何顺序检索它们都不应该受到评价指标的惩罚。
我们使用术语“item”和“query”指的是视频或标题。
对于一个给定的查询,根据它们在学习的嵌入空间中与查询的距离,对来自相反模态的所有项目进行排名。IVR中的基准使用以下评估指标:Recall@K(即预测正确的相关结果占所有相关结果的比例)、几何平均值和对应项目的平均排名(中位数或平均值)。
我们计算了一个query和视频集合Z的Discounted Cumulative Gain (DCG) ,根据它们在学习的嵌入空间中的距离排序
然后,可以通过将DCG评分归一化,使其位于[0,1]范围内计算出nDCG
再去看看DCG 和 nDCG
搜索推荐评价指标Precision@k、Recall@k、F1@k、NDCG@k
使用的是三联体损失函数。
替代损失:可以使用其他替代三态损耗的方法,如的近似nDCG损耗,的对数比损耗,或mAP的近似损耗
值得注意的是,其中一些研究将提出的损耗与基于实例的三重损耗相结合,以获得最佳性能
此外,近似mAP需要阈值,因为mAP需要二进制相关性。
注意,除了之外,所有这些工作都尝试基于实例的图像检索。
通过实验,我们发现对数比损耗比阈值损耗产生的结果要差。
将这些损失适应于SVR任务是未来工作中一个令人兴奋的探索领域。
Bag-of-Words(单词袋)语义相似度
我们将单词袋(BoW)相似性定义为每个标题中单词集之间的交集
很简单的一个交集,写得这么复杂
因为直接的字匹配没有字上下文。这就产生了两个问题:首先,单词的同义词被认为与反义词一样不相关,即“put”和“place”。其次,词语被平等对待——不管它们的词性、在标题中的作用,或者它们有多常见。通过删除停止词,可以部分解决单词通用性问题。
词性语义相似度
动词和名词,以及形容词和副词,描述了视频的不同方面,这些词可以在它们的词性中匹配。通过增加词性,我们可以保证两个视频之间的动作和物体是相似的。
为了计算词性(PoS)词匹配,并计算每个词性的词集之间的IoU,以及考虑的所有词性的平均值
α
p
{\alpha ^p}
αp是每个p的权重,
∑
p
∈
P
α
p
=
1
\sum\nolimits_{p \in P} {{\alpha ^p}} = 1
∑p∈Pαp=1,
那一大堆,算出来的是每个词性的词集之间的IoU,然后乘以权重,加和,就是所有词性的平均值。
Synset-Aware(同义词)语义相似度
我们利用来自词网或其他语义知识库的同义词集(即分组同义词)中的语义关系信息扩展了上述词性相似度。
词性和同义词相似度那块理解的不太行啊
METEOR 相似度
METEOR通过匹配(使用同义词集考虑同义词)和句子结构(确保匹配的单词以相似的顺序出现)来计算相似度。
评估了三个数据集上的基线方法,目的是回答以下问题:
(i)三个数据集上不同的代理度量如何相互比较?
(ii) IVR明显的缺点对方法性能的影响是什么?
(iii)在使用SVR对四项建议的代理措施进行评价时,当前的方法表现如何?
(iv) SVR模型的训练如何影响结果?
数据集: 常用的MSR-VTT[66]和Y ouCook2[73],以及最近发布的epickitkens -100[18]。后者的好处还在于它提供了语义注释,我们将在后面介绍。
Baselines(参考物):Multi-Modal Embedding orMME.、MoEE、CE、JPoSE
解析与语义知识
我们使用Spacy的大型网络模型来解析字幕。我们把这些限制在动词和名词上,在所有实验中,每一个都设定 α p {{\alpha ^p}} αp= 0.5。在计算Synset-Aware Similarity(同义词相似度)时,我们使用发布的synset,用于EPIC-KITCHENS和YouCook2数据集,因为两者都共享烹饪领域。我们发现synset信息在两个数据集之间传输良好。
使用WordNe和Lesk算法找到MSR-VTT的Synset知识。MSR-VTT在每个视频中包含多个字幕,因此,对于健壮的词集,我们只包含给定视频中出现在25%或更多字幕中的词(不包括停止词)。对于METEOR,我们使用NLTK实现。此外,为了计算MSR-VTT的 S M E T {S_{MET}} SMET,我们使用了多对多匹配与非mercer匹配内核[39]。
我们首先用定性的例子来说明语义相似度代理之间的区别。图3是来自Y ouCook2, EPIC-KITCHENS和MSR-VTT的例子。
BoW是与IVR最紧密的代理,只有当一组单词完全匹配时,字幕才被认为是同等相关的。同义词集代理是唯一一个考虑 “stir food in the pan” and “mix the ingredients in the pan together”(2图) 等标题的代理。这是因为它分别关注动词和名词(类似于PoS(词性匹配)), 并能够关联“stir”和“mix”等词。虽然METEOR也考虑同义词,但它的目标是在词序上保持良好的对齐,因此它给所有包含“in the pan”的字幕打高分,即使动词不同。这也解释了为什么与PoS和SYN相比,“add chopped onions to a pan of oil”得分较低,尽管标题中包含许多相同的概念。
在了解了代理之后,我们现在对它们进行了定量评估。计算了一个视频和数据集中所有字幕之间的相似性。
synset代理包含的相关标题与PoS一样多,甚至更多,因为它认为同义词是等价的。
在第3节中,我们分析了当前视频检索方法的缺点,即只考虑一个相关的标题——对应的标题。在本节中,我们使用语义代理来量化IVR对视频检索方法评估的影响。
现在,我们使用nDCG(等式3)和我们提出的语义相似度代理来评估SVR。在没有重新训练的情况下,我们在测试集中评估nDCG,其中语义相似性是使用4.4节中四个代理之一定义的。我们给出了三个数据集的结果。
这块,也就是论文中对应的5.3 的部分,不理解啊
结论: 语义代理的选择我们认为所有四个提议的代理都是有价值的相似性度量。对于某些目标/应用程序,可以选择一个代理而不是另一个。例如,要检索相同食谱的视频,BoW是有用的,因为只有包含相同步骤和成分的视频才被认为是高度相关的。相反,PoS和SYN在关注动作时很有用,因为它们增加了动词的重要性。SYN对于自由格式的标题也特别有用,因为其中有大量的同义词。可以将多个代理视为提高健壮性的多个评估指标。
用语义知识训练CE,对比仅实例的(左)IVR使用几何均值和(右)使用nDCG的四个提出的语义代理。在训练中使用语义代理可以在各种情况下提高性能。
本文强调了视频检索基准中的一个关键问题,即仅考虑视频和字幕之间基于实例的(IVR)相似性。我们已经通过实验和实例证明了用于IVR的假设的缺点。相反,我们提出了语义相似度视频检索(Semantic Similarity Video Retrieval, SVR)的任务,它允许多个字幕与一个视频相关,反之亦然,并定义了项目之间的非二进制相似度。为了避免SVR任务注释数据集的不可行负担,我们提出了四种语义相似度代理,它们不需要额外的注释工作,并且与数据集大小一致。我们使用提出的评估和训练协议,在三个数据集上评估代理。我们已经证明,在训练中结合语义知识可以极大地有利于模型的表现。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。