赞
踩
CLIP论文之后,涌现了很多任务,由于原始CLIP是为了图像设计的,因此这篇博文整理了几篇改装CLIP进行视频理解的工作。关于CLIP细节不做赘述,可以参考博主以前的博文:
CLIPBERT
来自CVPR2021。作者的motivation来自于,目前大部分预训练模型都使用提前提取好的特征提取器,然而1)固定的特征对于不同的下游任务来说不是最优的,且不同的模态的特征相互独立。2)密集的视频特征的计算量要求较高,以原视频作为输入太慢了,因此特征提取器很难参与到微调中。
因此作者提出了CLIPBERT,通过稀疏采样,即只使用一个或几个稀疏采样的视频短片段来代替整个视频,以less-is-more的原则使模型可以负载端到端学习。如上图所示,该模型仅仅使用少量的短片段即可,然后对多个短片段的预测进行融合如平均池化,以得到最终在整个视频级上的预测。这种先稀疏训练后密集推理的策略可以大大减少内存需求和计算量。具体的CLIPBERT的结构如下图所示:
博主个人觉得值得注意的点有:
更多细节可以看原文:
paper:https://arxiv.org/pdf/2102.06183.pdf
code:https://github.com/jayleicn/ClipBERT
CLIP4Clip
这篇文章的主要研究目标是:如何将知识从图片文本预训练模型CLIP,迁移到视频文本检索任务中 。模型框架如上图,主体结构仍然沿用的是CLIP,然后分为三个重要组件:Video Encoder、Text Encoder 和 Similarity Calculator,即文本编码器 、视频编码器和相似性计算模块 。
paper:https://arxiv.org/pdf/2104.08860.pdf
code:https://github.com/ArrowLuo/CLIP4Clip
CLIP2Video
作者motivation来自于想要解决视频-文本的理解,需要同时考虑到两个方面的信息,即1)多模态图像文本训练的空间表示和2)视频帧与视频语言的时间关系 。因此,基于能捕获空间状态的CLIP,本文提出的扩展模型主要通过两个模块来实现:时间差分块(Temporal Difference Block,TDB)和时间对齐块(Temporal Alignment Block,TAB)。
时间差分块。在序列中加入图像帧的差分来模拟运动变化。具体来说,以相邻时间戳之间帧嵌入的变换差来表示,即使用sigmoid和差异的注意力来表示,最后全局拼接得到视频表征。
时间对齐块。利用文本上下文和关键帧内容之间的对齐,以增强视频片段和短语之间的相关性。具体实现是使用共享的聚类中心来联合对齐帧和单词嵌入,即计算不同模态特征和共享中心的相关度作为不同cluster中心的权重。
paper:https://arxiv.org/abs/2106.11097
code:https://github.com/CryhanFang/CLIP2Video
CLIP2TV
结合CLIP和动量蒸馏来做视频文本检索。主要的贡献是在CLIP4CLIP的基础上,在推理阶段引入动量蒸馏。动量蒸馏的引入是为了解决图像文本的弱相关性,即标题不完全覆盖视频,视频片段又不包含文本描述。整体的结构如上图,主干部分和CLIP4CLIP一样,值得注意的点主要有:
paper:https://arxiv.org/pdf/2111.05610.pdf
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。