当前位置:   article > 正文

Various Image/Video Caption(视觉字幕化新任务)_captioning model

captioning model

上一篇博文博主整理了最新的 Video Caption(跨模态视频摘要/字幕生成),但是我在翻文章的时候发现大家都不止满足于做普通的caption了,开始转于做各种稀奇古怪但又有一定实践价值的新任务,比如程序化caption、多样化caption、独特化caption、多视角caption、常识性caption、问题控制型caption。。。于是本篇文章,博主找了一些相关文章(主要基于ACM MM2021),来整理一下这些丰富的任务变体们。

在这里插入图片描述
Hybrid Reasoning Network for Video-based Commonsense Captioning
常识性字幕化任务。 从普通的语义理解到高级语义推理上的升级,常识字幕任务旨在在给定一个输入的视频,同时生成字幕和完成常识推理(如上图a中的三种颜色,去推理出意图intention、效果effect、属性attribute)。同时很显然这三种常识推理都是有作用的,如图b是指人类不仅可以受益于视频和事件的标题,而且还可以准确地预测属性和效果,这证明这种语义层面的推理与不同的常识线索是相互作用的。

因此作者提出一种Hybrid Reasoning Network,即混合语义层面的推理和词级别的推理(预测下一个词)来提升表现。这样的好处是

  • 提高各种常识性语义的高级推理能力。
  • 从不同的单词中挖掘低级别的推理。

然后具体的模型结构如下图:

在这里插入图片描述
图a是整体结果,具体的做法是以视频为输入,然后采用多模态融合将运动特征(红色的时空CNN来提取)、音频特征(灰色的sound CNN来提取)和外观特征(Image CNN来提取)合并为多模态特征(MF)。然后将MF输入到解码器阶段进行字幕处理,其中包括字幕解码器和三个常识解码器:Intention Decoder,Attribute Decoder,Effect Decoder,做法都类似, c a t t ′ = D A T T ( v , s ′ , c a t t ) c'_{att}=D_{ATT}(v,s',c_{att}) catt=DATT(v,s,catt) c e f f ′ = D E F F ( v , s ′ , c e f f ) c'_{eff}=D_{EFF}(v,s',c_{eff}) ceff=DEFF(v,s,ceff) c i n t ′ = D I N T ( v , s ′ , c i n t ) c'_{int}=D_{INT}(v,s',c_{int}) cint=DINT(v,s,cint)loss也是直接用交叉熵来算。然后右边的图b是记忆路由多头注意力与记忆模块协同进行词级推理,即这个模块将从以前的单词信息中学习,并计算以前的信息和生成过程之间的交互。

在这里插入图片描述
Multi-Perspective Video Captioning
多视角字幕任务。 不同的人可能会用不同的描述对同一视频有不同的看法,这不仅仅是因为视频的不同内容(区域或片段)或者灵活语言,而是观众在解释视频时持有的不同视角。即人类字幕的输出应该同时受到三个因素的影响:视觉方面、语言风格和感知模式。

因此作者首先收集了一个VidOR-MPVC数据集,3136个视频,在一个明确的多角度指导方针下,手动注释了超过41k的描述。然后提出Perspective-Aware Captioner模型来解决这个新任务,模型上的挑战主要是

  • 1)每个视频都没有明确的视角注释。
  • 2)每个视频的视角数量是可变的。

因此使用了LSTM来学习可变数量的视角,并灵活地挖掘视频中所有潜在的视角。模型图如下:
在这里插入图片描述
包括三个模块video encoder, perspective generator 和 perspective-aware language generator。

  • video encoder用 CNN-LSTM
  • perspective generator 模块是这样贡献,其在每一步都生成一个角度表示,再根据视角的依赖关系由内存单元中的缓存信息建模,即生成的时候会根据构建的该视角下的词表以保证表意差别。同时考虑到大约90%的视频包含的视角少于8个,作者在提议的PG中将最大视角设置为8个,并引入虚拟视角填充少于8个的视角。
  • perspective-aware language generator最后在生成的时候使用视角感知注意机制即可。

在这里插入图片描述
Group-based Distinctive Image Captioning with Memory Attention
独特图像字幕任务。 虽然现有图像字幕生成器可以准确地描述图像,但它们缺乏人类描述图像的独特细节,无法与图像进行区别,即没有独特性。比如上图,简单地提及交通灯而不解释具体的意义(如交通灯的颜色),并不能帮助视障人士决定是否过马路。因此作者提出生成独特性caption更有可能突出真正有用的信息。具体来说这种独特性可称为,能够描述图像的独特对象或上下文的能力,以区别于其他语义上相似的图像。

因此作者提出Group-based Distinctive Captioning Model(GdisCap),通过对一组图像间的独特性加权的对象区域构建记忆向量,然后为组内的图像生成独特的字幕。模块架构图下图:

在这里插入图片描述
模型左边是用Fast RCNN得到目标。右边是模型的整体架构,重点主要就是基于组的记忆注意(GMA)模块,如果图像相似性越小则被认为是更独特,所以先算相似度: R k i j = c o s ( m k i , m 0 j ) R^{ij}_k=cos(m^i_k,m^j_0) Rkij=cos(mki,m0j)然后算组内的对象-图像的相似度映射: R k ′ j = m a x ( { R k i j } i = 1 N k ) R'^{j}_k=max(\{R^{ij}_k\}^{N_k}_{i=1}) Rkj=max({Rkij}i=1Nk)最后得到独特性得分 D = s o f t m a x ( − 1 K ∑ k = 1 K { R k ′ j } j = 1 N 0 ) D=softmax({-\frac{1}{K}\sum^{K}_{k=1}\{R'^{j}_k\}^{N_0}_{j=1}}) D=softmax(K1k=1K{Rkj}j=1N0)然后利用相似性对记忆向量进行权重即可。

在这里插入图片描述
A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation
多样化字幕任务。 目前都是单个图像-文本对的映射,此处存在两个问题。

  • 一句话来说明一幅图片是模糊的。图像过于丰富多样,无法用一定长度的标题来描述。
  • 单个图像-文本对不能在图像对象和caption语义之间提供准确和细粒度的对齐。

因此提出双向图像和文本生成任务,以对齐丰富的图像及其相应的多个不同的标题。如上图,该任务旨在统一实现一张图得到多个句子,多个句子生成更适合的图。模型的架构如下图
在这里插入图片描述
主体是multi-modal Transformer,然后比较特殊的地方是多句子生成引入不似然训练目标来考虑多个输入标题之间的关系,而图像生成从多个标题构造一个令牌序列作为变压器模型的输入。不过有点遗憾的是,这篇文章是短文所以具体的细节没有披露出来,希望未来能看到作者的完整工作吧。

在这里插入图片描述
State-aware Video Procedural Captioning
程序字幕任务。 不过这个任务也不算特别新的任务,做的人也算比较多的,不过这篇文章也有对数据集进行扩展。首先看看这个任务的目的是从教学视频中生成程序性文本,如先打鸡蛋再搅拌这种一步一步步骤化的输出。而这篇文章主打的motivation是材料的状态会依次改变,从而产生状态感知的视觉表现(例如,鸡蛋被转化为破裂的,搅拌的,然后是油炸的形式)。因此如果能跟踪操作后的材料状态,可以更好地关联跨模态关系。

因此给定一个食材列表,并提出一个simulator以便于解释过程中材料的状态转换,模型结构如下图所示:
在这里插入图片描述
为了准确地生成程序文本,模型必须跟踪clip序列中的材料状态,所以主要看visual simulator这里,具体来说一个推理过程为:给定片段和材料列表,视觉模拟器预测执行动作和材料,然后更新材料状态。经过第n次推理后输出一个状态感知的步长向量。最后在进行预测时候把clip特征,action特征和material特征都当作最后的特征用作生成。

在这里插入图片描述
Question-controlled Text-aware Image Captioning
问题控制字幕新任务。 提出这个新任务的动机是:应该对不同需求的人给出不同的描述,特别是当图像中的文本比较多的时候,通常不需要描述图像中的所有文本。比如上图,如果系统先告诉视障用户一个图像的概述描述,即“一本书”,然后让用户与系统交互,获得关于他们感兴趣的场景文本的更具体细节,如“谁写了书”或“书的标题是什么”。通过这种方式,视障用户可以根据自己的兴趣获得更个性化的文本感知字幕。
在这里插入图片描述
因此首先作者提供了问题扩充数据集的做法,如上图:

  • 1红色部分。去掉caption中的scene text,然后生成“initial caption”,方便后面user的提问。
  • 2绿色部分。用预训练好的问题生成器来生成question。

作者还对这个数据集进行了一系列的分析,大家可以自己看原文吧。先直接到framework部分,提出的模型GQAM由三个模块组成,Geometry-informed Visual Encoder,Question-guided Encoder,Multimodal Decoder。
在这里插入图片描述
简单看看各个模块:

  • Geometry-informed Visual Encoder。视觉对象特征和场景文本特征(区域特征+ocr特征),然后考虑它们的几何关系。
  • Question-guided Encoder。动态地选择有关问题的相关视觉特征。
  • Multimodal Decoder。生成文本感知标题,会同时利用视觉,问题,初始caption,然后依次生成问题的文本感知标题。
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号