赞
踩
出处:Information Processing and Management 58 (2021) 102681 —— SCI 1区
Fine-grained depression analysis based on Chinese micro-blog reviews
基于中文微博评论的细粒度抑郁分析
抑郁症是现代社会一个普遍而棘手的问题,它可能导致自杀的想法和行为。近年来,以Twitter或Reddit等社交媒体的帖子为基础,分析抑郁症或自杀的研究取得了很大进展。然而,大多数研究都集中在英语社交媒体上,且抑郁预测通常被形式化为存在或不存在。在本文中,我们构建了一个基于中文微博评论的人工标注数据集,该数据集包含6100条人工标注的微博。我们的数据集包括两个细粒度的任务,即抑郁程度预测和抑郁原因预测。前一项任务的目标是根据微博帖子的抑郁程度从5个类别中选择一个类别,后一项任务的目标是从预定义的7个类别中选择一个或多个导致抑郁的原因。为了建立一个基准,我们设计了一个联合预测抑郁程度和抑郁原因的神经模型,并与TextCNN、BiLSTM和BERT等几种广泛使用的神经模型进行了比较。我们的模型优于基线,在抑郁程度预测上最多达到65+% F1,在抑郁原因预测上最多达到70+% F1和90+% AUC,这表明神经模型取得了令人满意的结果,但仍有改进的空间。我们的工作可以扩展基于社交媒体的抑郁症分析领域,我们的标记数据和代码也可以促进相关研究。
抑郁症是现代社会普遍存在的一种常见的精神障碍。在全球范围内,超过2.64亿各年龄段的人患有抑郁症(James et al, 2018)。众所周知,抑郁症可能导致自杀,每年导致近80万人死亡。根据世界卫生组织的报告,自杀成为15至29岁人群的第二大死亡原因。因此,抑郁症检测可以识别出已经或将要产生自杀想法的人,从而及时预防自杀。
Saravia, Chang, De Lorenzo, and Chen(2016)提到患有抑郁症的人通常在主观上或客观上是孤独的,因此他们经常利用社交媒体作为平台来分享他们的感受和发泄他们的情绪。因此,社交媒体成为研究者研究抑郁症的热点资源(Hawton, 1987;Joiner Jr, Walker, Rudd, & Jobes, 1999),自然语言处理(NLP)成为基于社交媒体的抑郁症研究的重要技术。
目前已经提出了几种基于社交媒体的抑郁症分析NLP方法,包括传统的机器学习方法和深度学习方法。然而,之前的大多数工作只将抑郁分析任务视为双向分类问题 (例如,抑郁和非抑郁)。相比之下,我们的工作对抑郁症进行了更细致的分析。此外,之前的大部分工作都集中在使用英语社交媒体文本(如Twitter, Reddit或Facebook)进行抑郁分析,而我们的工作利用了新浪微博,这些微博是用中文写的。
具体来说,我们使用了新浪微博上的“树洞”评论,很多不开心或者抑郁的人会在“树洞”里发表评论,表达自己的感受和想法。在本文中,我们引入了一个人工注释的中文微博数据集,该数据集由6100条微博评论组成,这些评论由心理学和医学专业的研究生和教授注释。在我们的数据集中,抑郁分析被形式化为两个细粒度的任务,即抑郁程度预测和抑郁原因预测。抑郁程度预测是一种五向分类任务,将微博评论分为以下五类:无、轻微、中度、严重或非常严重。对于抑郁原因预测,我们将其视为一个多标签分类任务(Fei, Ji, Zhang and Ren, 2020;Fei, Zhang, Ren and Ji, 2020),从生理、工作与学习、爱情、家庭、人际关系、其他和无中选择一个或多个原因标签(抑郁程度和抑郁原因预测的类别定义细节请参见3.1节)。为了给我们的数据建立一个基准,我们设计了一个联合预测抑郁程度和抑郁原因的可解释模型。首先,使用BERT (Devlin, Chang, Lee, & Toutanova, 2019)来生成单词表示。然后采用标签感知注意力层(Mullenbach, Wiegreffe, Duke, Sun, & Eisenstein, 2018),通过识别输入的哪一部分对预测贡献更大,使我们的模型具有可解释性。最后,在输出层使用多任务学习(Caruana, 1997)来联合训练我们的抑郁程度和原因预测模型。
实验评估表明,我们的模型优于TextCNN (Kim, 2014)、BiLSTM (Liu, Qiu, & Huang, 2016)和BERT (Devlin et al ., 2019)等几种广泛使用的神经模型,在抑郁程度预测上达到65+% F1,在抑郁原因预测上达到70+% F1和90+% AUC。进一步的统计分析表明,抑郁程度与抑郁原因标签之间存在很强的相关性,并且我们的模型的一些预测是可以解释的。
我们的研究目标主要包括以下两个方面。首先,我们旨在研究基于中国社交媒体的细粒度抑郁分析。对于抑郁分析,以往的工作主要集中在英语社交媒体数据上,并进行二元抑郁检测(Coppersmith et al ., 2015;Resnik et al, 2015;Wolohan et al, 2018)。随着近年来对抑郁分析任务研究的不断深入,细粒度的抑郁分析任务越来越受到研究者的关注(Shing et al ., 2018;Zirikly等人,2019)。与检测是否抑郁症的简单二分法不同,抑郁症被分为多种程度,如无、低、中、高。不同的是,我们的抑郁分析工作包括两个细粒度的任务。一是细粒度抑郁程度分级,二是抑郁原因分析。抑郁程度分类是一个五类分类任务,其中抑郁程度又细分为无、轻度、中度、重度和极重度。抑郁原因分析是一个多标签分类任务,对于给定的评论有一个或多个抑郁原因。据我们所知,我们的工作是第一个对抑郁程度和抑郁原因进行细致分析的研究。
其次,我们的目标是为那些使用计算机技术分析抑郁症的人提供资源和方法。随着机器学习和深度学习模型的发展,越来越多优秀的深度学习模型在抑郁分析任务中表现出色,如CNN和RNN。众所周知,BERT预训练模型(Devlin等人,2019)在广泛的NLP任务中取得了最先进的结果,但BERT预训练模型在抑郁分析任务中的应用很少。因此,我们构建了一个相关的专家标注数据集,并提出了一个基于BERT预训练模型的基准模型。
综上所述,本文的贡献如下:
众所周知,社交媒体的使用有助于检测抑郁症。基于社交媒体上的用户活动,研究人员可以获取抑郁症患者的行动、行为和思维信息(Aldarwish & Ahmad, 2017)。社交媒体具有人口覆盖率大、调查成本低、信息更新实时等优势(Braithwaite, Giraud-Carrier, West, Barnes, & Hanson, 2016)。例如,Jashinsky et al(2014)提出了一种搜索与抑郁和自杀风险因素相关的术语和短语的方法,以找到潜在的与自杀相关的Twitter用户。在他们的工作中,可以观察到Twitter衍生的自杀数据与实际自杀数据之间存在很强的相关性,这表明Twitter可能是实时监控自杀倾向的可行来源。
NLP技术在许多领域都取得了成功,并且越来越多地用于健康和医疗领域的数据驱动研究。为了研究识别Twitter上患有抑郁症和创伤后应激障碍(PTSD)的用户的NLP方法,计算语言学和临床心理学研讨会(CLPsych)引入了一项共享任务(Coppersmith等人,2015年),参与者在大约1800名Twitter用户上评估了他们的方法。Resnik等人(2015)在语言信号分析中探索了监督话题模型,用于检测抑郁和非抑郁个体。Wolohan等人(2018)将两个支持向量机(svm)与TF-IDF和其他语言特征结合起来,为那些对公众污名敏感的Reddit用户检测抑郁症。Aragón等人(2019)提出了一种称为亚情绪袋(BoSE)的方法,该方法通过一组细粒度的情绪来表示社交媒体文本,他们使用SVM进行二元文本分类,用于抑郁症检测。据我们所知,上述研究仅将抑郁检测作为抑郁与非抑郁的分类问题,没有考虑到细粒度的抑郁程度。据我们所知,上述研究仅将抑郁检测视为抑郁与非抑郁的二分类问题,没有考虑到细粒度的抑郁程度。
随着深度学习的发展,越来越多的深度神经网络模型被应用于抑郁症分析或自杀风险评估。一项共享任务(Zirikly et al , 2019)引入了自杀风险的多层次评估,将自杀风险分为无风险、低风险、中等风险和严重风险4个级别。卷积神经网络(CNNs)等一些神经模型已被用于抑郁或自杀风险检测(Shing等人,2018;Yates et al, 2017)。Matero等人(2019)使用递归神经网络(RNNs)和预训练语言模型(如BERT) (Devlin等人,2019),提取情境化嵌入特征和其他用户相关特征,如人格,用于自杀风险评估任务。他们的研究侧重于用户层面的分析,而我们的工作侧重于博文层面的分析。与Cao等人 (2019)和Matero等人(2019)类似,他们也采用了RNN对文本进行编码,但他们专注于使用中国微博评论进行自杀风险预测。具体来说,他们使用树洞评论来预训练面向自杀的词嵌入,并将其应用于非树洞评论的二元自杀风险分类。相反,我们直接利用树洞评论,通过细粒度分析检测抑郁症。
据我们所知,与抑郁症病因分析相关的研究很少。Yusof、Lin和Guerin (2017)声称,他们是第一个使用自然语言处理技术自动识别抑郁症病因的人。然而,他们专注于发现特定人群(如学生或家庭主妇)患抑郁症的潜在原因。相比之下,我们的工作重点是分析个人抑郁的原因。此外,以前的大多数工作都将抑郁预测视为双向或多向分类,没有研究探讨联合预测抑郁程度和抑郁原因的问题。我们的研究是第一个使用中文微博帖子,不仅可以预测抑郁程度,还能分析抑郁原因的工作。
从方法论的角度来看,我们的工作涉及三条技术线。首先,我们利用情境化的词嵌入,从预先训练的深度语言模型(如BERT)中对我们的数据进行微调,这在许多NLP应用中都被证明是成功的。其次,我们还使用了标签感知注意机制来提高我们模型的可解释性,以便更好地分析文本中抑郁程度和原因预测的证据。第三,我们通过多任务学习技术,在抑郁程度和抑郁原因预测任务上联合训练我们的模型。通过分析抑郁程度和抑郁原因的黄金注释,我们发现这两项任务之间存在很强的相关性。因此,我们认为利用多任务学习有利于提高性能,这在我们的实验中得到了验证。具体而言,我们利用广泛使用的共享-私有架构进行神经多任务学习和文本分类。
2012年3月17日,一名网名为“走饭”的中国学生在新浪微博上留下了最后一条微博,然后自杀了。这一事件引起了公众的广泛关注,许多人来到这个帖子并评论它。这条帖子已经成为新浪微博上最大的树洞,到目前为止,新浪微博上的相关评论总数已经超过160万条,每天都有2000多条新评论。这意味着每天大约有500-600人评论这篇文章,其中许多人表达了抑郁、自杀意念甚至自杀准备。在心理学研究中,学者们把这样的帖子称为“树洞”,人们在这里释放自己的情绪,交流自己的想法。通过对树洞大量微博评论的研究,我们可以分析微博用户的抑郁程度和抑郁原因,从而为有自杀倾向或有自杀计划的特定人群提供人道主义援助。在本节中,我们详细介绍了用于抑郁症分析的中文微博数据集,包括任务定义,数据收集,注释,伦理考虑,数据分析等。
基于树洞评论,我们从抑郁程度和抑郁原因两个方面分析了用户的抑郁情绪。抑郁程度分析任务可以形式化为单类别的分类任务。该任务的输入是树洞评论,输出是代表抑郁程度的5个类别之一,即无、轻度、中度、重度、非常严重,分别代表非抑郁、轻度抑郁并有短期心理痛苦、抑郁并有长期心理痛苦但没有自杀意念、抑郁且有自杀意念、抑郁症和有自杀计划。具体情况如表1所示。
对于抑郁原因预测任务,我们设计了5个类别,如表2所示,涵盖常见的抑郁原因,包括生理、工作与学习、爱情、家庭、人际关系以及2个特殊类别“其他”和“无"。“其他”代表抑郁原因不属于5类或评论中未提及。“无”表示评论中没有抑郁原因,因为用户没有表达任何抑郁。由于用户的评论可能有多种抑郁原因,因此抑郁原因预测任务可以被视为多标签分类任务。
从2012年3月19日到2019年6月9日,我们爬取了“走饭”的1414505条评论。除了评论的文本,每个数据实例还包括用户的帐户信息、评论的日期等。对于数据清理,我们执行以下步骤来删除评论中不需要的信息。在数据清理之后,我们获得了1,360,256条人工注释的评论。图1显示了数据收集和标注的整体过程。
虽然用户的账号信息和评论日期有助于有效的网络监控和准确的救援,但是我们在抑郁分析阶段不需要这些信息。因此,我们删除了这些信息,只保留了评论文本。
虽然图片和表情符号已被证明对情感分析有用(Lou, Zhang, Li, Qian, & Ji, 2020),但在当前阶段,我们只使用文本,将多模态抑郁分析留给未来的工作。因此,所有的图片和表情符号都被删除了。
由于我们的目的是分析中文的树洞评论,我们删除了评论中的非中文字符,只保留中文评论。
我们删除了标点和空白字符,如空格、换行、制表符等。此外,我们内部停止词列表中列出的单词也被删除。请参阅附录C,以了解我们的停止词列表的详细信息。
在标注方面,由2名心理学专家和6名心理学研究生组成注释小组。其中,6名学生作为注释者对每条微博评论进行标注,两名专家担任组长,设计注释指南,并对学生的注释进行审核。
我们的注释组根据抑郁症的权威诊断标准(Association, 2013)和抑郁原因(Barlow & Durand, 2012)设计了注释指南。他们考虑了文本类型、抑郁症状和许多其他因素,进而得出抑郁程度和抑郁原因的标签。
为了保证较高的一致性,采用背靠背标注方法。具体来说,这6名学生被分为3组。每条评语应由两名学生同时批注。对于标注标签不一致的评语,注释组将进行讨论,由两名心理专家做出最终决定。对于两位专家也有不同意见的评论,我们不予考虑。学生完成工作后,心理专家会对所有标注的数据进行审核,修改错误,并对数据进行统计分析。在注释过程中,我们一共注释了8000条注释。丢弃有争议的评论后,还剩下6100条评论。因此,注释者之间的一致性得分可以认为是100%。
虽然这些数据在新浪微博上是公开的,但我们仍然将其视为敏感数据,可能包含个人信息泄露的风险。因此,我们执行以下步骤来消除这种风险。
(1)我们的研究已经通过了武汉大学机构审查委员会(IRB)的审查,并确定了豁免地位。(2)我们删除用户帐户信息,只保留匿名评论信息。(3)继Zirikly等人(2019)之后,我们使用斯坦福命名实体识别器(Manning,Surdeanu,Bauer,Finkel,Bethard,&McClosky,2014)自动识别和删除潜在的个人身份信息,如个人姓名和组织。(4)我们使用正则表达式来匹配和删除评论中存在的URL和电子邮件地址。(5)根据Benton、Coppersmith和Dredze (2017),我们重写了原始信息以保留其含义,但模糊了作者信息,并且我们不参与跟其他数据集的关联。(6)在注释过程中,只向注释者提供匿名帖子,并同意不尝试恢复用户信息或与用户联系。
为了评估去身份化的质量,我们随机选择了500个帖子进行人工检查,没有发现任何包含个人身份信息的例子。
经过数据标注,我们得到6100条标注评论,其中4080条作为训练集,1020条作为开发集,1000条作为测试集。表3和表4列出了数据集统计信息的详细信息。如图所示,评论的平均长度约为30个令牌。一条评论中最多有四种抑郁原因共存,大多数评论有一个或两个抑郁症原因标签。
从表3中可以看出,超过60%的评论包含了抑郁情绪的表达,约14%的评论甚至包含用户的自杀想法或计划。在抑郁原因标签的分布方面,None标签的比例与抑郁程度预测中None标签的比例相同。这是因为我们的注释指南隐含地限制了如果评论中没有抑郁表达,那么抑郁原因和抑郁程度都应该是None。在我们的注释指南中,我们定义了五种主要的抑郁原因。对于未提及抑郁原因的评论,分配Other标签,约占总评论数的45%。
我们还从两个角度分析了抑郁程度与原因标签的相关性,如图2所示。图2(a)显示了每种原因的不同抑郁程度的比例。正如我们所看到的,由工作或学习引起的抑郁更容易使人自杀,而由爱情引起的抑郁通常使人遭受短期的心理痛苦。图2(b)显示了每个程度不同抑郁原因的比例。可以看出,Other标签所占比例最高,且抑郁程度越高,Other标签所占比例越高。人际关系在五种预定义的抑郁原因中所占比例最高。此外,与其他4种原因相比,“爱情”在轻微程度中所占比例最高,但在“严重”和“特别严重”中所占比例较低。
除了抑郁程度和原因之间的相关性外,我们还统计了训练集和测试集共享的重叠用户数量,并计算了每个标签在测试集上的重叠率。如图3所示,所有的重叠率都在7%以下。特别是,“非常严重”和“家庭”标签上没有重叠的用户。因此,用户信息对测试集的影响可以忽略不计。
该模型的体系结构如图4所示。我们使用BERT (Devlinetal.,2019)对微博评论进行编码,并使用两个分类器来确定评论的抑郁程度和抑郁原因。此外,我们建立了一个可解释模块(Mullenbachetal,2018),使我们的模型能够为每个单词提供关于特定抑郁程度或抑郁原因的置信度。我们利用多任务学习的共享私有框架(Chen和Cardie,2018;刘等人,2017)来联合训练该模型。在下面的部分中,我们将从下到上介绍我们的模型的细节。
给定一条由词序列
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。