当前位置:   article > 正文

【音频和视频】Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space

【音频和视频】Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space

标题:在双曲空间中学习弱监督的视听暴力检测

源文链接:https://arxiv.org/abs/2305.18797icon-default.png?t=N7T8https://arxiv.org/abs/2305.18797

暂无代码

预印版

摘要

近年来,弱监督的音频-视觉暴力检测任务受到了相当大的关注。该任务的目标是在基于视频级别标签的多模态数据中识别出暴力片段。尽管该领域已经取得了进展,但之前研究中使用的传统欧几里得神经网络在捕捉高度区分性的表示方面遇到了困难,这是由于特征空间的局限性所致。为了解决这个问题,我们提出了HyperVD,这是一种创新的框架,它在双曲空间中学习片段嵌入,以增强模型的辨别能力。我们贡献了两个全双曲图卷积网络的分支,这些网络在双曲空间中挖掘片段之间的特征相似性和时间关系。通过在这一空间中学习片段表示,该框架能够有效地学习到暴力片段与正常片段之间的语义差异。在XD-Violence基准测试上的广泛实验表明,我们的方法达到了85.67%的平均精度(AP),大幅超越了现有的最先进方法。

Keywords:Weakly supervised learning,Hyperbolic space,Video violence detection

1.引言

随着数字内容量的增加和社交媒体平台的激增,自动化的暴力检测在各种应用中,如安全和监控系统、犯罪预防及内容审核,变得日益重要。然而,为视频中的每一帧进行标注是一项费时且成本高昂的过程。为了解决这一问题,目前的方法经常采用弱监督的设置,将问题构想为多实例学习(MIL)任务 [36, 44, 53, 47, 34, 17, 43, 4]。这些方法将视频视为实例包(即,片段或片段),并根据视频级注释预测它们的标签[35]。(These methods treat a video as a bag of instances
(i.e., snippets or segments), and predict their labels based on the video-level annotations [35].)

遵循MIL的范式,一系列弱监督的暴力检测方法已经被提出。例如,Zhu等人 [55] 提出了一个时间增强网络,通过注意力块学习动态感知特征;而Tian等人 [36] 开发了Robust Temporal Feature Magnitude(RTFM)方法,通过时间注意力和幅度学习增强模型的鲁棒性。Li等人 [21] 引入了一个基于Transformer的框架,利用多序列学习以减少选择误差的概率。此外,一些多模态方法也被提出,它们共同学习音频和视觉表示,通过利用来自不同模态的互补信息来提升性能 [44, 47, 27, 30]。例如,Wu等人 [44] 提出了一种基于图卷积网络(GCN)的方法,通过图学习来学习多模态表示;而Yu等人 [47] 则展示了一种通过模态感知的多实例学习来应对模态异步性问题的方法。

虽然上述方法已经获得了有前景的结果,这些多模态方法可能因现实世界场景中收集的音频信号中存在的噪声而遭受严重的模态不平衡问题。在这种情况下,音频模态对暴力检测的贡献远低于视觉模态。此外,先前的方法已经证明了使用图表示学习来检测暴力事件的有效性,即将每个实例视为图中的一个节点 [44, 53],但它们仍然在区分暴力和非暴力实例方面挣扎。

在本文中,我们提出了一种新的方法,通过图表示学习来解决这些问题。据我们所知,所有之前的方法都使用深度神经网络在欧几里得空间中学习特征表示。然而,像图这样的数据已被证明表现出高度非欧几里得的潜在结构 [2, 46],这挑战了当前基于欧几里得的深度神经网络。如图1所示,正常和暴力实例之间存在着内在的层级关系和大量的语义差异,这些在欧几里得空间中很难区分。我们认为,在与数据相关的空间(如双曲流形)中直接学习实例表示有利于提高模型的辨识能力,因为它使模型能够捕捉和区分在欧几里得空间中难以探索的细微语义差异。

图1直观地展示了暴力实例与正常实例之间存在隐含的层次关系和显著的语义差异。这些差异使用传统的欧几里得空间方法可能难以捕捉,因为欧几里得空间方法可能并不适合表示复杂的层次结构。在欧几里得空间中,数据点之间的关系通常通过直线距离来衡量,这在处理具有内在层次性和复杂拓扑结构的数据时可能不够充分。因此,暴力实例与正常实例之间的细微差别,尤其是在语义层面的差异,可能不会在欧几里得空间中得到很好的体现,这限制了模型在区分这两类实例时的表现能力。

受此启发,我们提出了一种基于双曲几何Lorentz模型的新型HyperVD框架 [26],用于弱监督的音频-视觉暴力检测。在双曲几何上构建框架可以得益于双曲距离,与相似样本之间的距离相比,它会指数级地增加不相关样本之间的距离。具体而言,我们的方法包括一个迂回融合模块,用于在融合阶段解决模态不平衡的问题,随后将融合的音频-视觉特征嵌入映射到双曲流形上。然后,我们利用两个全双曲图卷积网络的分支,在双曲空间中抽取实例间的特征相似性和时间关系。此外,我们将从两个分支中学习到的嵌入连接起来,并输入到双曲分类器中进行暴力预测。为了验证我们提出方法的有效性,我们在XD-Violence数据集上进行了实验。在弱监督下,我们的方法能够达到最佳性能,平均精度(AP)为85.67%,超越了前最先进方法2.27%。广泛的消融实验也证明了在双曲空间中学习实例表示的有效性。

总而言之,我们的主要贡献如下:
- 我们分析了使用传统基于欧几里得的方法学习实例表示的弱点,并提出了一种新颖的HyperVD框架,通过双曲几何有效地探索实例的语义差异,为弱监督暴力检测带来了更强大的辨识能力。
- 实验结果表明,我们的框架在XD-Violence数据集上超越了最先进方法。消融研究进一步揭示了每个提议组件对模型成功所做出的贡献。

2.相关工作

弱监督暴力检测

弱监督暴力检测的目标是在视频中识别出暴力片段,仅利用视频级别的标签。自从第一篇采用深度学习方法的论文[7]发表以来,暴力检测领域取得了巨大的进展。为了排除无关信息并提高检测精度,多实例学习(MIL)框架[24]在这个过程中被广泛采用。大多数现有研究[31, 1, 6, 8, 28, 32, 43, 50, 51, 45]将暴力检测视为纯视觉任务,并利用基于卷积神经网络(CNN)的网络来编码视觉特征。Sultani等人[35]提出了一种带有稀疏性和平滑性约束的MIL排序损失,用于深度学习网络学习视频片段中的异常得分。Li等人[21]开发了一种基于Transformer[38]的多序列学习模型,以减少选择错误的概率。最近的研究[44]发布了一个大规模的音视频暴力数据集。为了促进跨模态交互,Yu等人[47]提出了一种轻量级的双流网络,并利用模态感知对比和自我蒸馏技术实现判别性的多模态学习。为了专注于正常数据的含义,Zhou等人[54]提出了一种双记忆单元模块,结合不确定性调节,同时学习正常数据的表示和异常数据的判别特征。不同于先前的方法,我们将在音视频特征融合嵌入投影到双曲流形上,并运用全双曲图卷积网络有效地挖掘暴力与非暴力实例间的语义差异。

双曲空间中的神经网络

双曲空间是一种具有恒定负高斯曲率的非欧几里得空间。近年来,由于其在表示具有潜在层级结构数据方面的吸引力特性,双曲空间在机器学习和神经信息科学中引起了越来越多的兴趣[25, 33, 26, 40]。Nickel等人[25]在双曲空间中使用庞加莱球模型进行了开创性的表示学习研究。Sala等人[33]分析了不同模型中嵌入大小和数值精度之间的权衡,而Ganea等人[10]将这些方法扩展到了无向图。在此基础上,Ganea等人[11]定义了一种双曲神经网络,它架起了双曲空间与深度学习之间的桥梁。Nickel等人[26]和Wilson等人[41]证明,在双曲空间的洛伦兹模型下可以产生更高效且更简单的优化器,相比庞加莱球模型。在最近的研究[13]中,基于各向同性空间的笛卡尔积发展了神经网络。实际上,双曲空间已被很好地融入到近期先进的深度学习模型中,如循环神经网络[11]、图神经网络[22]和注意力网络[15]。基于这些深度学习范式的相关研究,我们探索了使用双曲神经网络在双曲空间中进行弱监督音视频暴力检测的有效性。

4.方法

4.2多模态融合

此处我们将讨论早期和中期阶段常用的几种多模态融合方式,以便进行比较实验。

拼接融合(Concat Fusion)
最直接的方式是简单地将两模态的所有特征拼接起来,然后通过全连接层(FC)进行融合。拼接融合方案的输出 X 可以表示为X = f(X_A \oplus X_V ),其中 f(\cdot)是两层的全连接层,\oplus表示拼接操作。

加法融合(Additive Fusion)
我们使用逐元素相加的方式来组合来自两个模态的信息,即 X = f_a(X_A) + f_v(X_V),其中f_a(\cdot)\) , \(f_v(\cdot) 是两个对应的全连接层,以保持输入特征的维度相同。

门控融合(Gated Fusion)
我们研究了在文献[20]中提出的门控融合方法,允许一个模态“控制”或“关注”另一个模态,通过sigmoid非线性函数实现,即X = W(UX_A * VX_V),其中 U, V, 和 W 是权重矩阵。可以将这种方法视为一个模态对另一个模态执行注意力机制。

双线性与拼接(Bilinear & Concat)
我们为两个模态的输入特征使用两个线性层,并保持它们的维度一致,随后进行拼接操作,即 X = UX_A \oplus VX_V,其中 U和 V是权重矩阵。

我们的迂回融合(Detour Fusion)
X_VX_A分别代表由后端提取的听觉和视觉特征,X = \{x_i\}_{i=1}^T 表示两种模态特征的融合。

在视听暴力检测中,听觉和视觉信号之间存在显著的模态不平衡,这与其它典型的多模态任务不同。音频信号经常受到来自捕捉设备的噪声影响,从而降低了其质量。相反,视觉信号倾向于更加丰富和可靠,这对于有效的暴力检测至关重要。基于这种直觉,视觉模态可能比听觉模态对暴力检测有更大的贡献。因此,我们采用一种简单且高效的迂回融合方式,只将视觉特征输入到全连接层,确保视觉特征与音频特征具有相同的维度。然后,我们将视觉和音频特征拼接形成一个联合表示,记作X = f_v(X_V) \oplus X_A,其中 f_v是两层的全连接层,且X \in \mathbb{R}^{T\times2d}。在某种程度上,这个迂回操作给予视觉模态比音频模态更多的重视。实验结果证实了我们的迂回融合方法的有效性,其性能超过了其他常用的融合技术。更多融合方法的实现细节可以在附录中找到。

通过上述描述,我们可以看到不同的融合策略如何处理视听信息的整合,以及我们提出的迂回融合如何在暴力检测场景中更有效利用视觉信息的优势。

5.实验

5.1实现细节

特征提取
为了公平比较,我们采用了与先前方法[36, 44, 27, 47]相同的特征提取流程。具体来说,为了提取视觉特征,我们使用了在Kinetics-400数据集上预训练的I3D网络[3]。对于音频特征,我们采用的是在大量YouTube视频数据集上预训练的VGGish网络[12, 18]。视觉特征以每秒24帧的采样率提取,使用窗口大小为16帧的滑动窗口方法。对于音频数据,我们将每个音频记录分为重叠的960毫秒段,然后使用96x64分辨率计算对数梅尔频谱图。这使我们能够提取丰富且信息丰富的听觉特征,可以与视觉特征结合,以增强暴力检测模型的性能。

HyperVD架构与设置
对于迂回融合模块,我们应用两个1D卷积层,LeakyReLU激活函数和dropout,用于学习视觉特征。在双曲空间中,我们为HSFG和HTRG分支利用了两个双曲图卷积层。两个分支的输入维度均为257,隐藏维度设置为32。负曲率常数,记为K,是一个固定值-1。

训练详情
整个网络在NVIDIA RTX 3090 GPU上训练50个周期。训练期间,我们设置批大小为128,初始学习率为5e-4,通过余弦退火调度器动态调整。对于超参数,我们设置\gamma为1,\epsilon为2,dropout率为0.6。我们使用Adam优化器,不设置权重衰减。对于多实例学习(MIL),我们设置k最大激活值k为\lfloor T/16 + 1\rfloor,其中T表示输入特征的长度。

5.2数据集

XD-Violence[44]是一个最近发布的大型视听暴力检测数据集,来源于真实世界的电影、网络视频、体育直播、安全摄像头和闭路电视。该数据集包含训练集中4754部未剪辑影片,总运行时间接近217小时,训练集提供视频级别标签,测试集提供帧级别标签。遵循[44, 27, 47],我们选择了这个XD-Violence数据集作为基准,以验证我们提出的多模态框架的有效性。推理时,我们使用平均精度(AP)指标进行评估,这与之前的工作[36, 44, 27, 47]一致。值得注意的是,更高的AP值对应于在数据集上更好的性能。

5.3定量结果

我们将我们提出的方法与先前的顶尖方法进行比较,包括:(1)无监督方法:SVM基线、OCSVM[34]、Hasan等人[17];(2)弱监督单模态方法:Sultani等人[35]、Wu等人[43]、RTFM[36]、MSL[21]、S3R[42]、UR-DMU[54]、Zhang等人[49];(3)弱监督视听方法:Wu等人[44]、Pang等人[27]、MACIL-SD[47]、UR-DMU[54]、Zhang等人[49]。在XD-Violence数据集上的AP结果列于表1中。

在视频级别标签监督下进行评估,我们的方法达到了顶尖的性能,AP值上明显超过所有无监督方法。与先前的弱监督单模态方法相比,我们的方法至少提高了4.01%。与顶尖的弱监督多模态方法MACIL-SD[47]相比,我们的方法实现了显著的2.27%的提升。这些结果证明了我们提出的方法在双曲空间中学习实例表示的有效性,以及其在增强暴力检测模型性能方面的潜力。

与其它方法相比,我们的方法拥有最小的模型大小(0.607M),同时仍超越所有先前的方法。这些结果证明了我们框架的效率,它利用了更简单的网络架构,同时实现了优越的性能。就模型复杂度和推理能力而言,表5提供了在测试集上计算的平均推理时间和浮点运算(FLOPs)。由于现有计算工具包(如fvcore)不支持某些特殊的数学函数用于FLOPs计算,所以我们提供了推理时间,并发现加入双曲几何确实给模型带来轻微的推理成本增加,但性能提升显著。

定性结果
为了进一步评估我们的方法,我们首先在XD-Violence上可视化预测结果,如图3所示。对于暴力视频,我们的方法不仅产生精确的检测区域,还生成高于正常片段的异常分数。在非暴力视频中,我们的方法对正常片段几乎产生零预测

此外,我们提供了图4,显示了原始、欧几里得和双曲训练特征的空间可视化。双曲特征首先转换到欧几里得空间,使用t-SNE[23]进行计算。结果证明了在双曲空间中暴力和非暴力特征的清晰聚类,经过训练后不相关特征之间的距离增加。值得注意的是,训练在双曲空间的特征需要转换到欧几里得空间,然后使用t-SNE工具计算。我们也在附录中提供了专为双曲空间设计的CO-SNE[16]可视化。

5.5消融研究

为了探究所提框架关键组件的贡献,我们进一步进行了广泛的消融研究,以证明其效率。

我们首先对不同的多模态融合方式进行比较实验,结果如表2所示。我们的迂回融合方法达到了85.67%的性能,相较于简单使用拼接(Concat)融合提高了2.32%。此外,Wu等人[44]采用的是早期融合策略的拼接方式。我们使用我们的迂回融合模块重新实现他们的方法,获得了1.22%的提升。

然后,我们研究了全双曲GCN(FHGCN)对我们框架的贡献,结果如表3所示,与标准欧几里得空间的GCN相比,性能显著提升,从76.87%提高到85.67%。此外,配备Lorentz模型的FHGCN的数值稳定性使我们的方法超越了使用庞加莱模型的HGCN,实现了2.79%的提升。如表3所示,我们还使用不同的特征相似性度量评价模型性能。我们的发现证明了使用Lorentz模型的Lorentz距离在双曲空间中捕捉特征相似性具有更强的能力,因此,它超越了替代方法。此外,我们分析了所提出的HFSG分支和HTRG分支的贡献。表4中的结果表明了每个分支的重要性。当装备了两个分支时,我们的方法可以达到最佳的85.67% AP性能。

最后,在图5中,我们展示了预测结果以辅助定性分析。视觉比较显示,我们的方法,利用双曲几何,有效地减轻了暴力和非暴力片段的预测噪声,超越了使用欧几里得几何的基线和变体方法。这证明了我们方法在捕捉之前无法区分的微妙语义差异方面的卓越能力。

6额外的结果与分析

6.1复杂度分析

我们的方法设计上考虑了计算效率,没有引入过多的参数。迂回融合模块,通过全连接层学习视觉特征,包含了主要的模型参数。相比之下,HFSG(Hyperbolic Feature Similarity Graph)和HTRG(Hyperbolic Temporal Relation Graph)分支较为轻量级,主要由在学习到的嵌入上操作的双曲图卷积层组成。与其他方法相比,我们的方法拥有最小的模型大小(0.607M),同时仍超越所有先前的方法。这些结果证明了我们框架的效率,它利用了一个更简单的网络架构,同时实现了优越的性能。

6.2训练稳定性

我们进一步提供了在50个周期训练过程中准确率曲线的比较结果,如图7所示。值得注意的是,HGCN(Hyperbolic Graph Convolutional Network)和FHGCN(Fully Hyperbolic Graph Convolutional Network)中双曲特征相似性分支的相似度度量分别由庞加莱距离和Lorentzian距离度量。如图所示,基于GCN(Graph Convolutional Network)的方法产生了显著的波动结果。得益于Lorentz模型的数值稳定性,我们的方法,即配备了FHGCN的方法,在整个训练过程中比其他方法更为稳定。

6.3不同超参数的消融结果

如表1、表6和表7所示,我们也提供了我们方法中采用的不同超参数的消融结果。在表2中,与基于欧几里得的方法(如Wu等人[30])相比,模型即使在小的嵌入维度(32)下也能获得有前景的结果(80.46%),并保持轻量级(0.609M)和快速(2.585秒)。表7说明了不同隐藏维度和FHGCN层数对模型性能的影响。

6.4CO-SNE和t-SNE可视化

我们应用了专为双曲数据设计的CO-SNE[16]来可视化原始嵌入和由双曲神经网络产生的训练后的嵌入。对于高维双曲数据点,它们接近庞加莱球的边界,标准t-SNE通常错误地低估了它们之间的距离,会导致低维嵌入塌缩成一点,导致较差的可视化效果[16]。具体而言,我们采用变换函数将Lorentz模型的嵌入投影到庞加莱空间,然后使用CO-SNE进行可视化。如图6所示,左列显示了未经训练的原始嵌入,而右列显示了由我们的模型训练后的嵌入,我们可以观察到,训练后暴力和非暴力特征被很好地分离,例如,暴力特征靠近中心,而非暴力特征则被推至边界

图6展示了使用CO-SNE [16]在二维特征空间中对高维原始嵌入(vanilla embeddings)和我们模型输出的双曲嵌入的投影,CO-SNE能够保持高维双曲数据点的层次结构和相似性结构。图中的红色点表示暴力事件的嵌入,而蓝色点则表示非暴力事件的嵌入。通过这种方式,可以直观地观察到暴力与非暴力事件在双曲空间中的分布情况,显示出模型能够有效地将这两种类型的事件在特征空间中进行区分。

7结论

本文探讨了视听场景下的模态不一致性问题以及在欧几里得空间中学习实例表示的弱点。随后,我们提出了一个结合迂回融合模块和两个双曲图学习分支的HyperVD框架,以解决上述问题。具体而言,我们设计了一种迂回融合策略,以抑制音频信号的负面影响,缓解跨模态的信息不一致性。此外,我们提出了一个双曲特征相似性图分支和一个双曲时间关系图分支,分别用于学习片段间的相似特性和时间关系。我们的HyperVD在XD-Violence数据集上大大超越了先前的方法,证明了在双曲空间中学习实例表示的优越性。

我们相信双曲几何在各种视频理解和解释任务中,如视频异常检测和事件定位,具有巨大潜力。我们致力于未来在这些领域和其他相关领域进一步探索双曲几何的力量。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/926545
推荐阅读
相关标签
  

闽ICP备14008679号