赞
踩
这篇文献介绍了一个名为MovieGraphs的新数据集,该数据集提供了电影剪辑中描绘的社会情境的详细、基于图形的注释。每个图形包括几种类型的节点,以捕捉出现在剪辑中的人员、他们的情感和物理属性、他们之间的关系(即父/子关系)以及他们之间的互动。大多数交互行为都与提供额外细节的主题和给出行为动机的原因相关联,并且大多数交互行为和许多属性都是以时间戳为基础的。作者还提出了一种查询视频和文本的图形方法,并展示了这些图形包含丰富且充分的信息以概括和定位每个情境。该数据集还为交互理解和原因理解提出了方法。MovieGraphs是首个专注于人类中心情境的推断属性的基准,为实现社交智能AI代理打开了一条令人兴奋的道路。
文中提出了一些任务:
1.视频检索
2.interaction ordering
3.reason prediction
传统的视频认知的任务都是针对5-10秒的短视频,然而在电影场景中,一个片段往往需要更长的时间(200 s)。
作者提出了ViS4mer,一种高效的长视频理解模型,它结合了自注意力和最近引入的结构状态空间序列(S4)层的优势,ViS4mer学习了视频中复杂的长程时空依赖关系。此外,ViS4mer比相应的纯自注意力模型快2.63倍,并且需要的GPU内存少8倍。
不过这个方法应该只是用了movie中的frame的内容,没有利用到更多模态之间的信息。
作者认为理解一部电影必须具备的一个智能就是记忆,需要记忆过去什么事情与当下发生的事情相关。该文章利用memory bank来存储电影表征,用于补充3D CNN提取的特征,帮助模型理解上下文。memory bank实际上就是提前抽取的帧的信息。一个naive的实现就是利用attention来将long term的特征抽取出来。
对于电影来说其实这个方法还是不够有效,能处理的clip还是比较有限。且长片段都要先用I3D进行高密度的处理。能否减少这种高密度的处理,采用某种方式提取更加粗糙的动作或者更加抽象的语义信息?
这篇论文提出了long term video understanding的任务和数据集。为了解决这个任务,作者提出了object transformer。作者基于已有的视觉模型对图片中的物体进行detect and track,再利用transformer来学习物品之间的关联。
作者利用了很多已有的工具进行视频的构建,主要用于抽取每个object的出现时间、空间、短期特征以及identity(用于区分角色)。而一个时刻中的一个object就相当于一个word,作为一个视频中最基本的元素。
作者在文中也讨论了一个比较有意思的问题:视频这种媒体怎么理解会比较好?作者说现有的方法有三种,1.2d图片构成的一个时间列表,2.3d的一个张量,3.作者所提出的基于object的理解方式。作者认为视频中的每一帧不过是现实世界中的一个投影,2d图片的交互以及3d张量的理解是存在问题的,因为投影之间并没有发生交互,这不过是观测者发生了变化,而不是视频的中对象发生了交互而导致的。
实验也有一些比较有意思的内容,作者发现人才是理解视频中的重要角色,识别出人其实就够了,增加一些物品只有很小的提升。
作者继续沿着long term video进行的研究,同样也是利用memory的操作来帮助长视频的理解。
在这篇论文中,作者已经抛弃了传统3d卷积的方法了,转而采用vit架构的模型,作者主要实验都是基于他们自己的工作MVit。MeMViT的主要核心思想是进行时序建模(有点像GPT的工作),将过去处理过的信息也用上帮忙进行当前的处理。一个比较基础的想法就是将前面时间步处理的结果存储下来,但是为了压缩存储,省空间,作者提出了一个linear层进行学习压缩的策略。
该论文对于视觉尝试推理问题用三个阶段进行解决:
1.Grounding:是为了学到语言和视觉间的交互,利用bi-LSTM进行建模
2.Contextualization:根据response每个词进行attention聚合question以及object region embedding。
3.reasoning:把每个位置的词拼在一起过lstm完成推理。
实际上我觉得论文这三个模块名字起的比较玄乎,真正在做的事情就是进行了视觉和语言的交互。至于这算不算reasoning,我觉得要看不同人的理解了。毕竟这个数据集是做选择题,只需要选择与问题和图片更相关的answer就可以了,没必要理解问题和图片的内容。
作者认为以往的工作一般是直接学每对人物之间的关系,但是作者认为更高阶的关系也是需要的,比方说actor1通过在一个汽车内的场景才能判断出来与actor2的关系,直接学习actor1和actor2的关系可能学不出来。已经有有工作利用GNN进行高阶关系的学习(学习人物与object之间的关系),但是这些方法都需要一个预训练的目标检测器,论文觉得能检测出来的物品不够多,其次没有利用上background的信息。(我觉得这个缺点并不是硬伤,比较牵强)。
文章主要的改进就是更加细致地考虑了其他被pretrained detection忽略的信息。
具体的方法是先将对应actor的ROI特征提取,并且将每个actor的ROI特征与context feature concate在一起,之后利用卷积转化为K,Q,V。这一步对应的是actor ROI与context feature的一个交互。再进行non-local attention的操作,获得二阶关系。
作者认为对于长视频任务的动作识别,很多帧实际没有什么信息量,作者想要先用一个轻量级的网络来挑选重要的片段,利用重要片段再进行预测。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。