当前位置:   article > 正文

10.12 学习笔记_ch-sims

ch-sims

多模态学习

多模态学习(Multimodal Learning)是在深度学习的框架下,将各种不同类型的数据整合在一个模型中进行建模。在单模态学习(Unimodal Learning)中,我们通常在单一模态的数据上进行建模,比如文本。例如,在文本数据上进行情感分析、分类、生成摘要或者翻译等等,这些任务基本上只会用到单一模态的文本数据。我们通过这种方式构建模型,然后将模型应用到相应的任务或应用中。图像处理也是类似的。事实上,在近几年之前,文本处理和图像处理这两个领域的发展基本上是独立的,它们的关联度并不高,尤其是在Transformer模型出现之前。

  • CLIP
    模型以非生成形式将图片、文字联系起来
    思路:它将文本和图片的特征表达做匹配,文本特征和图像特征做内积,相对应的越近越好 训练目标就是最大N个正样本的相似度,同时最小化N*N-N个负样本的相似度。CLIP模型使用了大量的弱对齐的图片-文本对,这些数据是从网上收集的,不需要专门的人工标注。
    包括两个模型:Text Encoder和Image Encoder,其中Text Encoder用来提取文本的特征,可以采用NLP中常用的text transformer模型;而Image Encoder用来提取图像的特征,可以采用常用CNN模型或者vision transformer。
    分类问题 得到单词 自己组成一个句子文本 再跟图片做内积,根据任务的分类标签构建每个类别的描述文本:A photo of {label},然后将这些文本送入Text Encoder得到对应的文本特征,如果类别数目为N,那么将得到N个文本特征;
    将要预测的图像送入Image Encoder得到图像特征,然后与N个文本特征计算缩放的余弦相似度(和训练过程一致),然后选择相似度最大的文本对应的类别作为图像分类预测结果,进一步地,可以将这些相似度看成logits,送入softmax后可以到每个类别的预测概率。
    zero-shot推理阶段的数据集和训练数据集可以完全不同
  • DALLE
    根据文字生成图像
  • CNN
    数据输入层/ Input layer
    卷积计算层/ CONV layer
    ReLU激励层 / ReLU layer
    池化层 / Pooling layer
    全连接层 / FC layer
    抬高维度 特征提取
    卷积层 提取特征 不同区域提取不同特征 内积对应位置相乘
    特征图 feature map 执行了一次卷积之后,得到的结果 个数为卷积层个数
    内部的点使用的更多 所以要边缘填充
    参数共享 一组固定的权重和不同窗口内数据做内积: 卷积
    池化层 压缩特征 下采样 只改变长、宽
    全连接 通过一组权重参数将输入层与隐藏层连接起来
    把之前矩阵拉成向量
    激励层 用Relu,Sigmoid会梯度消失
    CONV Relu 非线性变换
    带参数计算的才能称为一层 CONV、FC
  • RNN
    递归神经网络 数据与时间相关 时序
    正向传播:计算损失函数 反向传播:利用损失函数更新权重
    前一个时刻训练出的中间结果特征会对后一个时刻产生影响
    数据之间在时序中呈现相关性
    考虑最后一个xt ht 记下全部结果 但是容易考虑的太多
    LSTM 加了个控制开关 忘记一些特征
    通过输入上文 输出下文 猜出你说什么
    在输入神经网络之前 在大表中找到对应的词向量
    语料库的大表 随机初始化 随着训练进行 会更新 滑动窗口
    反向传播 一步更新输入数据 一步更新权重参数
    一个词后面接着10w个可能分类,变成10w个任务二分类
    加入一些负样本来训练

多模态的技术点如下:

  1. 多模态表示学习 (Representation) 将实体化信息(文本、图片)通过向量来表示,分为联合表示与协同表示
    联合表示: 将多个模态的信息一起映射到一个统一的多模态向量空间
    协同表示: 将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关)
    本质上是在向量空间当中对应的特征关系与原始信息是否具有一致性。

  2. 模态转化 (Translation) 多模态转化也可称为映射 (Mapping),主要是将一个模态的信息转化或映射为另一个模态的信息。 比如:从图像模态转化为文本模态或者音频模态。
    主要应用:机器翻译(MachineTranslation) 、唇读(Lip Reading)和语音翻译 (Speech Translation)、图片描述 (Image Captioning)与视频描述(Video Captioning)、语音合成(Speech Synthesis)

  3. 模态对齐 (Alignment) 不同模态之间内容信息上的对齐;从来自同一个实例的两个甚至多个模态中寻找子成份之间的关系和联系。
    相关任务:给定一张图片和图片的描述,找到图中的某个区域以及这个区域在描述中对应的表述;图像语义分割(Image Semantic Segmentation)

  4. 多模态融合(Fusion)
    将不同模态的信息作内容上的互补,联合多个模态的信息,进行目标预测(分类或者回归)
    相关任务 : 视觉-音频识别(Visual-Audio Recognition)、多模态情感分析(Multimodal sentiment analysis)、手机身份认证(Mobile IdentityAuthentication)

  5. 协同学习(Co-learning) 不同模态多任务的学习方式,这个是多模态研究的主要技术点。通过利用资源丰富(比如数据量大)的模态的知识来辅助资源稀缺(比如较小数据)的模态建立模型
    协同学习本质上是利用不同模态资源的稀缺

CH-SIMS: A Chinese Multimodal Sentiment Analysis Dataset with Fine-grained Annotations of Modality

本文介绍了一个中文单模态和多模态情感分析数据集CH-SIMS,该数据集包含了2281个经过精炼的视频片段,同时具有多模态和独立的单模态注释。它允许研究人员研究模态之间的相互作用,或者使用独立的单模态注释进行单模态情感分析。
情感分析是自然语言处理(NLP)。仅使用文本不足以判断说话者的情感状态,文本可能会产生误导。随着短视频应用的蓬勃发展,引入了非语言行为(视觉和音频)来解决上述不足。
多模态情感分析,在本文中,我们主要考虑先进行模态内表征学习,再采用模态间融合的后期融合方法。一个直观的想法是,模态间表征的差异越大,模态间融合的互补性越好。然而,现有的后期融合模型不容易学习不同模态之间的差异,进一步限制了融合的性能。原因在于,现有的多模态情感数据集只包含每个多模态片段的统一多模态标注,并不总是适合所有模态。换句话说,在模态内表征学习过程中,所有模态都共享一个标准注释。此外,这些统一的监督将引导模态内表征更加一致,减少差异性。

  1. 模态内表示: 必须考虑不同模态的时间或空间特征。基于卷积神经网络(CNN)、长短期记忆(LSTM)网络和深度神经网络(DNN)的方法是提取单模态特征的三种代表性方法
  2. 模态间融合: 协整(concatenation)、张量融合网络(Tensor Fusion Network, TFN)、低阶多模态融合(Lowrank Multimodal Fusion, LMF)、记忆融合网络(Memory Fusion Network, MFN)、动态融合图(Dynamic Fusion Graph, DFG)等。

数据集:

  • 数据获取:
    SIMS有2,281个精炼的视频片段,收集自不同电影、电视连续剧和综艺节目的自发表情、各种头部姿势、遮挡和照明。一个基本的要求是说话人的脸和声音必须同时出现在画面中,并在特定的时间段内保持。约束条件:1、只考虑普通话 2、剪辑的长度不少于一秒且不超过十秒 3、只出现说话者的脸。
    每个标注者先进行单模态标注,然后再进行多模态标注,其顺序是先文字,后音频,然后是无声视频,最后是多模态。对于每个多模态片段,除了多模态注释,我们提出的数据集还有独立的单模态注释。M:多模态,T:文本,A:音频,V:视觉
  • 数据标注:
    对于每个片段,每个注释者决定其情感状态为-1(消极)、0(中性)或1(积极),我们有五个独立的学生在这个领域进行注释。然后,为了同时完成回归和多分类任务,我们对五个标注结果进行平均。因此,最终的标注结果是{-1.0,-0.8,-0.6,-0.4,-0.2,0.0,0.2,0.4,0.6,0.8,1.0}中的一个。数值分为5个分类:负值{-1.0,-0.8},弱负值{-0.6,-0.4,-0.2},中性{0.0},弱正值{0.2,0.4,0.6},正值{0.8,1.0}。
    从混淆矩阵可以看出,A和M之间的差异最小,V和T之间的差异最大,符合预期。因为音频包含文字信息,更接近于多模态,而视频和文字之间的联系是稀疏的。

CHEAVD也是中国的多模态数据集,但它只包含两种模态(视觉和音频)和一个统一的注释。相比之下,SIMS除了每个片段的多模态标注外,还有三种模态和单模态标注。因此,研究人员可以利用SIMS来完成单模态和多模态的情感分析任务。此外,研究人员还可以利用这些额外的注释开发出多模态情感分析的新方法。

基于SIMS,我们提出了一个使用单模态和多模态标注的多模态多任务学习框架。在这个框架中,单模态和多模态任务共享底部的特征表示子网络。它适用于所有基于后期融合的多模态模型。然后,我们将TFN、LMF和Late-Fusion DNN(LFDNN)等三种晚期融合模型引入到我们的框架中。在单模态任务的情况下,多模态任务的性能显著提高。此外,我们对多模态情感分析、单模态情感分析和多任务学习做了详细的讨论。最后,我们验证了单模态标注的引入可以有效扩大不同模态之间的差异,在模态间融合中获得更好的性能。

注:以上内容均引用自网络,仅供自己学习

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/390496
推荐阅读
相关标签
  

闽ICP备14008679号