赞
踩
更新中……
依赖训练深度模型
(就是有监督、无监督那些)特定于领域
的,如果想更改领域将涉及数据收集和模型训练,这个成本比较高即LAVAD
- language-based video anomaly detection,不涉及数据收集和模型训练,利用预训练的大型语言模型(LLMs
- large language models)和视觉语言模型(VLMs
- vision-language models)
VLMs的字幕模型
(VLM-based captioning models)为测试视频的每一帧生成文本描述提示机制
(prompting mechanism),用于解锁LLMs在时间聚合和异常评分估计方面的能力,使LLMs成为有效的视频异常检测器与模态对齐的VLMs
,并提出了基于跨模态相似性(cross-modal similarity)的有效技术,用于清理噪声字幕和细化基于LLMs的异常评分在两个具有真实世界监控场景的大型数据集(UCF-Crime和XD-Violence)上LAVAD均优于无监督和单类VAD方法(unsupervised and one-class methods)
总结来说:①数据收集难,涉及隐私;②模型的泛化问题;③打标成本高。 \color{red}{总结来说:①数据收集难,涉及隐私;②模型的泛化问题;③打标成本高。} 总结来说:①数据收集难,涉及隐私;②模型的泛化问题;③打标成本高。
图1: 方法对比。左侧是四个目前最先进的方法,右侧是本文提出的方法
缺乏明确的视觉先验
”的问题(就是指的模型没有提前学到过关于异常或者正常的相关知识)
字幕模型
(基于VLMs)为测试视频的每一帧生成文本
描述跨模态相似性
的清洗过程(基于VLMs)来解决
字幕中的潜在噪声
总结时间窗口
的字幕以捕获场景的动态内容。该总结用于提示LLMs为每一帧提供异常分数。然后通过将具有语义相似的总结的帧之间的异常分数聚合在一起,进一步改进该分数
首次研究了无训练VAD问题
提出LAVAD,是第一个使用LLMs从场景描述中检测异常的方法
引入新技术(基于VLM的跨模态相似性)
提供了新范式
(不使用特定任务监督和训练的视角去解决VAD问题)
在推理时仅使用预训练的模型来估计每个视频帧 I ∈ V \mathbf I \in \mathbf V I∈V,即不涉及数据集 D \mathcal D D 的任何训练/微调
这里主要分析了LLMs基于视频帧的文本描述来对异常进行评分的能力。
①首先利用SOTA字幕生成模型BLIP-2
对每一帧生成文本描述;②然后将异常评分视为分类任务,即让LLM在11个值([0, 1]之间均匀的11个值)中选择
P C \mathrm{P_C} PC:“If you were a law enforcement agency, how would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities?”
注意: P C \mathrm{P_C} PC 不包括与异常类型有关的任何内容
由式1可以得到异常分数,然后使用AUC
作为评价指标。
如图2,展示了在UCF-Crime的测试集
上的结果,使用了5个不同类别的CLIP-2和2个不同的LLM。同时,也提供了 弱监督的SOTA性能 和 随机性能 作为参考。
图2:在UCF-Crime的测试集上VAD任务的AUC柱状图。
- 不同的柱状图代表CLIP-2的不同类别的字幕生成模型
- 不同颜色代表了两种不同的LLMs
- 红色虚线代表弱监督的SOTA性能
- 灰色虚线代表随机性能
LLMs性能比随机好,但是比SOTA性能差很多,即使是弱监督的SOTA性能。
原因可能为:
图3:Llama对某视频的异常分数预测。
- 红色区域为真实发生异常的帧;淡蓝色的线为模型预测出的异常分数。
- 同时真实发生异常的帧中挑选了两帧举例,给出了这两帧的字幕。可以发现:
①红色边框的那一帧异常分数给的很高,这是因为其字幕是正确的描述了异常
②蓝色边框的那一帧给的异常分数很低,这是因为其字幕没有正确的描述异常
图4:LAVAD方法的流程。
如图4,LAVAD包括5个组件:
注意:这5个组件都是冻结模型
Image-Text Caption Cleaning.
首先会使用 Φ C \Phi_{\mathbf{C}} ΦC 对测试视频 V \mathbf V V 中的每一帧 I i ∈ V \mathbf I_i \in \mathbf V Ii∈V 生成字幕 C = [ C 1 , . . . , C M ] \mathbf C = [C_1, ..., C_M] C=[C1,...,CM],其中 C i = Φ C ( I i ) C_i=\Phi_{\mathbf C}(\mathbf I_i) Ci=ΦC(Ii)
但是此时生成的字幕是有噪音的,如图3。为了清楚噪音,提出了一个假设:在整个是视频的字幕 C \mathbf C C 中,肯定会存在一些 未损坏且很好的捕捉到其对应帧的内容 的字幕(依据:视频是静态摄像机以高帧率捕获的场景)。因此,无论时间距离有多远,帧的语义内容可以是重叠的。
基于这个观点,我们将 字幕清洗 视为 从字幕 C \mathbf C C 中给帧 I i \mathbf I_i Ii 找到语义最接近的字幕。
形式上,利用 视觉-文本编码器 对字幕
C
\mathbf C
C中的字幕编码,形成一套 字幕嵌入,即
{
ε
T
(
C
1
)
,
.
.
.
,
ε
T
(
C
M
)
}
\{ {\LARGE \varepsilon}_T(C_1), ..., {\LARGE \varepsilon}_T(C_M) \}
{εT(C1),...,εT(CM)},然后计算语义相似度:
余弦相似度
最终会构建出清洗后的字幕 C ^ = [ C ^ 1 , . . . , C ^ M ] \hat{\mathbf C}=[\hat{C}_1, ..., \hat{C}_M] C^=[C^1,...,C^M],他们是从 C \mathbf C C 中检索出来的
虽然字幕噪音减少了,但是缺乏时间信息,这个对于视频来说很重要,所以 利用LLM生成时间总结。
具体来说:
均匀采样
N
N
N 帧,形成视频片段
V
i
\mathbf V_i
Vi 和字幕子集
C
^
i
=
{
C
^
n
}
n
=
1
N
\hat{\mathbf C}_i=\{\hat C_n\}_{n=1}^N
C^i={C^n}n=1NP S \mathrm{P}_S PS为:“Please summarize what happened in few sentences, based on the following temporal description of a scene. Do not include any unnecessary details or descriptions.”
上面得到的第 i 帧的描述
S
i
S_i
Si 语义信息和时间信息更加丰富,将
S
i
S_i
Si + 提示
P
C
\mathrm P_C
PC + 格式提示
P
F
\mathrm P_F
PF 输入给LLM来生成分数:
注意:这里的两个提示与3.2节的一样,并且分数也在区间
[
0
,
1
]
[0, 1]
[0,1]
上面的分数 a = [ a 1 , . . . , a M ] \mathbf a=[a_1,...,a_M] a=[a1,...,aM] 仅是根据语言信息 S S S 得到的,并未考虑整个分数集。因为这里通过聚合语义相似帧的评分来改进初始评分。
具体来说:
所有
的时间总结
S
S
S 进行编码余弦相似度
注意:式5 利用与 式2 相同的原则,即使用视觉-语言相似性来优化帧级估计。在式2中,这种相似性用于清理字幕;在式5中,这种相似性用于聚合语义相似帧的得分。
使用 UCF-Crime 和 XD-Violence
使用 AUC,因为与阈值无关,同时对于 XD-Violence 还使用了 AP
多模态编码器用于:
- 比较视频帧和字幕之间的相似性,从而找到与帧内容最匹配的字幕
- 比较视频片段和时间总结之间的相似性,通过聚合相似视频片段的得分来优化每帧的异常评分
比较了不同监督程度的多种方法,同时还引入了一些无训练基准(包括CLIP、ImageBind 和 LLaVa),具体来说:
每帧嵌入向量
与两个文本提示的嵌入向量
之间的余弦相似度
。这两个提示分别描述了标准场景和可疑或潜在犯罪活动场景如表1:
零样本方法:通常只使用简单的文本提示,如“标准场景”和“可疑或潜在犯罪活动场景”,这些提示直接与视频帧进行相似度比较。
LLAVA-1.5:使用更丰富的上下文提示,可能包含更多关于场景的信息和更复杂的语言模型处理,使得评分更加准确和上下文相关。
表1:在 UCF-Crime 上与SOTA方法和基线的性能比较。
表2:在 XD-Violence 上与SOTA方法和基线的性能比较。
图5:定性结果。第一行是UCF-Crime的,第二行是XD-Violence的。可以发现正确的时间总结描述会促进评分,证明了 分数、视觉内容和描述 之间的相关性。
表3:在UCF-Crime上对每一个组件的消融实验。
对两方面进行了消融:
可以发现,如果两种先验同时使用不会增加性能,可能是因为更严格的背景会限制广泛的异常。
表4:在UCF-Crime上使用不同的先验的消融实验。
- 最
基本的
上下文提示:“How would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities?”仅使用异常先验
:“How would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious or potentially criminal activities?”仅使用模拟先验
:“If you were a law enforcement agency, how would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious activities?”两种先验
都使用:“If you were a law enforcement agency, how would you rate the scene described on a scale from 0 to 1, with 0 representing a standard scene and 1 denoting a scene with suspicious or potentially criminal activities?”
AUC 在 K K K 接近 9 9 9 时会达到饱和
图6:在UCF-Crime上 K K K的影响。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。