当前位置:   article > 正文

基于多模态的抑郁症识别入门综述——Deep Learning for Depression Recognition with Audiovisual Cues: A Review_基于多模态的抑郁症检测

基于多模态的抑郁症检测

目录

原文链接

1 背景介绍 

1.1 研究背景

1.2 关键因素

1.3 存在问题

1.4 本文内容

2 目前的诊断方法

2.1 抑郁症的定义

2.2 诊断方式

 2.3 客观指标

3 相关数据库

4 深度视听抑郁症识别

4.1 预处理

4.2 传统神经网络架构

4.2.1 CNN(卷积神经网络)

4.2.2 RNN与LSTM(循环神经网络与长短期记忆递归神经网络)

4.2.3 Transformer—编码器和解码器的代表作

4.2.4 GAN(生成对抗网络)

4.3 针对音频模态的深度ADE网络

4.3.1 相关研究工作

4.3.2 针对音频模态的ADE的总结

4.4 针对视频模态的深度ADE网络

4.4.1 从单个图像中学习ADE的空间特征

4.4.2 对基于单个图像的ADE研究的总结

4.4.3 从图像序列中学习ADE的时间特征 

4.4.4 对基于图像时间序列ADE研究的总结

4.5 针对多模态融合的深度ADE网络

4.5.1 相关研究工作

4.5.2 对基于多模态ADE研究的总结

 4.6 其它相关的研究

 4.7 基于不同数据库不同模态信息的深度学习相关研究

 5 待解决的问题与未来研究方向

5.1 数据库的可用性

5.2 数据和算法的透明度、公开性

5.3 学科间的合作

5.4 训练数据集的不均衡性

6 结论

6.1 有待解决的问题

6.2 今后聚焦的问题


原文链接

原文链接

https://arxiv.org/abs/2106.00610icon-default.png?t=N7T8https://arxiv.org/abs/2106.00610

1 背景介绍 

1.1 研究背景

        由于缺少有效的可供衡量病症的特征(生理或心理等方面),当前抑郁症主要仍由临床医生通过打分的方式进行诊断。随着技术发展,ADE(自动抑郁症诊断系统)被引入,通过视频或音频等信息协助医生进行抑郁症诊断。 

1.2 关键因素

        ADE系统中很重要的一步是设计一个有代表性的特征并提取用以估计抑郁症的严重程度,该特征可以手工创建,也可以基于深度学习模型得到:

        手工特征在ADE中表现良好,但存在一些限制:

  1. 提取前需要对相应抑郁症知识有了解,这需要耗费很大的精力。
  2. 一些隐含的判别特征难以被人工提取。
  3. 不同的实验人员会从不同的角度出发提取不同的特征进行研究。

        基于深度学习获得的特征表现良好,并且几乎不具有上述提到的主要问题,主要采用包括CNN、RNN在内的各种主要网络结构基于视听因素来提取多尺度的特征表征。

1.3 存在问题

        当前已有的相关综述存在两个有待思考的问题:首先是很少有研究关注视频和音频两种及以上数据信息(多模态)同时参与ADE系统,其次是大多数现有研究仍采用传统方法,深度学习的一些技术还未被广泛应用。

1.4 本文内容

        本论文包含:基于试听线索的综合调查;回顾了20个数据库;回顾了114个研究,并选择了78个使用深度学习技术的根据其使用的数据类型分为三类:

  •  音频模态的深度ADE网络
  •  视频模态的深度ADE网络(空间特征提取、时间特征提取)
  •  用于视听线索的深度ADE网络

2 目前的诊断方法

2.1 抑郁症的定义

        1980年,Russell提出情绪状态可以用二维空间的连续数字向量来表示,该二维空间称为VA空间,valence指的是两类情绪状态,积极和消极;arousal指的是情绪强度,从无聊到亢奋。

         根据Diagnostic and Statistical Manual of Mental Disorders (DSM) of the American Psychiatric Association (APA),抑郁症可以被分为多种类型,如:MDD、DMDD、PDD、S/M-IDD等。DSM认为一个人如果具有(1)兴奋或快感明显减退(2)有以下至少四种症状持续两周 两种情况,这个人就患有抑郁症。

下图展示了与抑郁症相关的一些症状:

         目前仍不清楚抑郁症的真正病因,一般认为可能与大脑皮层—边缘系统的活性与连接性降低有关,而且抑郁症与遗传、成长环境、生活习惯等都存在一定关系。

2.2 诊断方式

        当前主要的方式是通过HAMD或BDI表格进行打分评估(HAMD由临床医生询问患者并填写评分问卷20-30min,BDI则由患者自己完成报告问卷5-10min)。HAMD侧重神经相关的症状,如睡眠、体重、疲劳情况等,虽然其被认为是一个黄金标准,但打分过程中仍会忽略一些明显的症状;BDI则侧重于消极自我评价症状的自我评价,但这种自我评估的方法不关注临床特征,会出现不同个体差异过大的问题,也难以区分不同类别的抑郁症。

        不同方法的特点都不相同,PHQ-9被认为可能成为未来主要的诊断标准,它需要收集答案的问题很少。

 2.3 客观指标

        可观察的行为信号在精神病学领域不被接受。但很多研究聚焦于此。目前有研究指出,言语、面部活动、身体姿态、眼部活动以及皮肤点反应、血压、脑电图等都可以辅助抑郁症诊断。本文主要讨论基于视频音频下的机器学习对抑郁症的研究(可以看作一个回归或分类任务)。

        由于目前对抑郁症的病理原因不清晰,也不了解明确的患者生理变化情况,当前大部分相关医疗单位仍依靠传统打分表进行诊断,这样的方法存在过于主观,或对症状考虑不全面等问题,因此可观察的行为信号得到了很多研究人员的注意,我们希望通过这种方式能够有一个可参考的特征并进行抑郁症严重程度的分析。

3 相关数据库

简要分析:

        由于抑郁症数据收集工作较为敏感,难以得到大量参与者的数据;不同实验过程不相同,难以保证数据的准确性和有效性;不同实验记录的细节也不同,因此该领域的数据收集过程挑战很大。

        目前大多数抑郁症数据库不向公众开放,在我国,可用的公开数据集也非常少;数据库内的数据量也较少,并且设计的数据类型也不丰富(一般就是单一音频或视频),这都造成了该领域的数据匮乏。

4 深度视听抑郁症识别

4.1 预处理

        无论是传统的识别方法还是端到端的基于深度学习的相关工作,在实际抑郁症识别前都需要进行预处理。例如:处理音频的采样率,利用傅里叶变化DFT进行时频表示(使用汉宁窗口选择DFT参数),在手工特征中考虑低水平描述符的长度,处理视频数据时采用算法或某些工具进行人脸检测和相邻帧的对齐等等。

        这里补充一个端到端的概念:端到端模型 (end-to-end models)是指系统中不再有独立的声学模型、发音词典、语言模型等模块,而是从输入端(语音波形或特征序列 )到输出端(单词或字符序列)直接用一个 神经网络相连,让这个神经网络来承担原先所有模块的功能。

4.2 传统神经网络架构

4.2.1 CNN(卷积神经网络)

        主要包含三种类型的层:卷积、池化和全连接。卷积层是为了对输入内容的特征进行建模,卷积层包含一个卷积核来计算特征映射。池化层用于降低特征映射的空间分辨率,用最大、最小平均等统计量来替换特征映射中的小邻域,实现位移不变性,之后使用全连接层来生成高级特征表示,全连接层的所有神经元在前一层被采用,并连接当前层的每个单个神经元,从而得到全局输出信息,在某些情况下,可以将全连接层转换为1*1的卷积层。

4.2.2 RNN与LSTM(循环神经网络与长短期记忆递归神经网络)

        为了对来自音频、视频和文本的序列信息进行建模,RNN被研究人员提出。但RNN存在不能建模长期的依赖关系,并且在现实世界的任务中可能出现梯度消失或激增等问题。因此,我们引入了RNN的一个变体,称为LSTM来解决这些问题。LSTM设计了三个门控结构:输入门、输出门和遗忘门,以协调输入流和记忆单元的输出,学习模式。

4.2.3 Transformer—编码器和解码器的代表作

        在这里首先想说明,编码器解码器并非是一种类似RNN或CNN等特有的网络结构,小長认为它代表了一种思路,其中编码器表示我们对数据特征的提取,随着维度的下降我们得到数据内的深层信息,而解码器则是在深层信息的基础上再进行映射,从而得到在解决任务时我们需要的内容,因此从这个角度来看,以Transformer为例,最早提出的Transformer包含了编码器和解码器两部分,但实际上根据任务的需要,我们可以选择其中之一去进行应用。

        编码器-解码器网络旨在通过两级架构学习潜在特征表征。编码器可以通过一个函数将输入

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/737782
推荐阅读
相关标签