当前位置:   article > 正文

多模态+SNN个人学习历程和心得_snn多模态

snn多模态

祖传开头

这次想写一个一直深藏心中的研究方向,那就是多模态方向。其实当初在实验室那会儿,最先接触的就是多模态的工作,因此这是我科研之路的起点。只不过,后来经历了一些波折,导致个人没有往这个方向深挖,这篇博客主要是想记录一些多模态相关的知识基础,还会涉及一些脉冲神经网络(SNN)的知识,同时记录个人参与过的工作,留下一些回忆。


多模态学习

基本概念

多模态学习,或者称为多模态机器学习(MMML),是近年来学术界非常热门的话题和方向。就如2023年讨论度最高的大模型方向,目前也在往多模态方向进军,各大企业都追求开发多模态的大模型。多模态听起来可能有点抽象,但不难理解。

所谓模态(Modality),通常指的是某种感觉、知觉或信息传递的方式或通道,具体可以涵盖不同的感觉或信息传递方式,如视觉、听觉、触觉、嗅觉和味觉等,每种感觉或信息传递方式都可以被称为一种模态。多模态(Multimodal)则是指涉及多种不同感觉或信息传递方式的情况。在多模态信息处理中,不同的感觉通道可以相互交互,以综合或增强对信息的理解和感知。

形式

多模态可能有以下三种形式:

  • 描述同一对象的多媒体数据。如互联网环境下描述某一特定对象的视频、图片、语音、文本等信息,这种是最常见的多模态的理解。
  • 来自不同传感器的同一类媒体数据。如医学影像学中不同的检查设备所产生的图像数据, 如CT、B超、核磁共振等。
  • 具有不同的数据结构特点、表示形式的表意符号与信息。包括了结构化和非结构化的数据单元,数学概念的多种表达方式,以及语义符号的不同形态。例如,可以用不同的数据格式来描述同一地理位置,如地理坐标、地图图像或文字描述。同样,数学中的某个概念可以以公式、逻辑符号、函数图或解释性文本的形式呈现。语义符号也具有多样性,如词向量、词袋、知识图谱等,都可用于表达相同的概念或语义。

我们再细说多模态数据。对于同一个对象,描述的方式可以是不同的(视角或领域不同),把描述这些数据的每一个领域或者视角叫做一个模态。通俗地理解,就是输入数据的类型不同,比如文本、图片、音频、视频等等。在视频分析中,视频可以分解为音频、图像、字幕等多模态信息;每个图片又可以表示成强度或者灰度、纹理等不同模态特征。

模态间的关联性:每个模态能为其余模态提供一定的信息,即模态之间存在一定的关联性。对不同模态数据进行同等处理或对所有模态特征进行简单的连接整合不能保证挖掘任务的有效性。

多模态机器学习是指基于不同模态的数据进行学习的算法,通常研究文本、语音和视觉。

一般方法

  • 表征(Representation)。找到某种对多模态信息的统一表示,分为协同表征Coordinated representations(每个模态各自映射然后用用相关度距离来约束表示)和联合表征Joint representations(多个模态一起映射);
  • 翻译(Translation)。一个模态映射到另一个模态,分为 example-based(有候选集,如检索任务)和 generative(Encoder-Decoder);
  • 对齐(Alignment)。找模态子成份之间的关系,如某词对应某区域。分显式对齐和隐式对齐,Attention 首当其冲;
  • 融合(Fusion)。整合信息,分为 model-agnostic(早晚融合)和 model-based(融合更深入);
  • 联合学习(Co-learning)。通过利用丰富的模态的知识来辅助稀缺的模态,分为parallel(如迁移学习),non-parallel(迁移学习,zero shot),hybrid 等。

多模态情感分析

多模态情感分析(MSA)是一种用于分析人类情感的方法,它通过同时分析文本、图像、语音等多种信息模态来识别情感。这种方法能够更全面地了解人类情感,因为它能捕捉到文本中难以表现的信息,例如面部表情和语音语气。

现阶段的多模态情感分析任务,大多站在如何有效地将多模态的特征信息进行融合这一角度考虑问题,目的是排除与情感分析任务无关的噪声数据,最大化利用与情感分析任务相关的多模态数据,包括单模态内的数据交互与模态间的数据交互,最终达到分析情感极性的目标。

在这里插入图片描述

多模态融合

1、特征级融合(早期融合)
特征级融合(有时称为早期融合)将每种形态(文本、音频或视觉)的所有特征组合成单个特征向量,在开始提取特征后就进行融合,然后将其输入到分类算法中。特征级融合的好处是,它允许不同的多模态特征之间的早期关联,从而可以更好地完成任务。

这种融合方法的缺点是时间同步,因为收集到的特征属于几种模态,在许多领域可能差异很大。因此,在融合过程发生之前,需要将特征转换为所需的格式。这种融合方法不能有效地表示模态内的动态,它无法过滤掉从多个模态收集的冲突或冗余数据。模型基本结构如下:

在这里插入图片描述


2、后期融合(晚期融合)
由于模态之间的数据的相关性较高,以及多模态数据源无法同步的问题,针对该场景,有了后期融合模型。在后期融合中,先对各模态的特征进行独立处理和分类,然后将分类结果融合形成最终的决策向量,即前期各模态数据单独训练得到预测结果,后期采用决策或者集成的方式将多模型的输出结果进行规则融合。因为融合发生在分类之后,这个过程被称为晚期融合。

由于早期融合的挑战,大多数学者选择在决策级融合中分别对每个模态的输入建模,最后整合单模态识别的结果。由于不同分类器产生的错误不相关,分类器融合优于单独的分类器。由于由许多模态产生的决策通常具有相同形式的数据,从不同模态接收的决策的融合比特征级的融合更容易。这种融合过程的另一个好处是,每个模态可以使用可用的最佳分类器或模型学习其特征。当分析任务需要使用不同的分类器时,决策级融合步骤中所有这些分类器的学习过程变得困难和耗时。模型基本结构如下:

在这里插入图片描述


3、混合融合
既然有了早期融合和晚期融合,为了平衡上述两种方法的优劣,于是有了混合融合模型,即针对数据同步、相关性不强的的模态进行早期融合,对相关性强、数据和更新不同的模态进行晚期融合。在一些数据集上,效果可能要好于早期融合和晚期融合。其模型结构如下:

在这里插入图片描述


4、张量融合
张量融合使用一个张量融合层(显式模拟单模态、双模态和三模态相互作用)构建了一个使用模态嵌入的3倍笛卡尔积,它将所需的训练样本数量降至最低。其中一种张量融合技术 MTFN 的体系结构如下图所示:

在这里插入图片描述


5、双模态融合
基于两两的模态表示,新的端到端网络实现了融合(相关增量)和分离(差异增量),这两个组件同时接受训练。由于模态之间已知的信息不平衡,该模型以两个双模态对作为输入。其中一个双模态融合架构 BBFN 结构模型如下图所示:

在这里插入图片描述


6、基于注意力机制的融合
背景信息提取和多模态融合是多模态情感分析和情感识别中最重要的两个难点。基于双向递归神经网络模型的多层次背景特征提取称为基于注意机制的融合。在话语层面,每种情态对情感和情感分类的贡献不同。因此,该模型建议多模态融合采用基于注意的互态融合,以适应每个互态话语的重要性。将上下文注意的单模态特征两个两个地连接起来形成双模态特征,然后将所有双模态特征合并在一起形成三模态特征向量,每一步融合后提取上下文特征。其中一种基于融合机制的模型MMHA 体系结构如下图所示:

在这里插入图片描述

以上是对多模态学习的简单介绍,我提及的都是比较基础的概念,大家可以参考其他大佬or奆佬的博客学习学习!


个人工作

接下来我简单介绍个人之前在实验室参与的科研项目(多模态情感分析),我参与的部分其实不多,但是整个流程基本了解,主要目的是助于大家更深入地了解多模态学习(同时让我巩固一下知识

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/647527
推荐阅读
相关标签