赞
踩
电子健康记录 (EHR) 数据集的快速增长为系统地了解人类疾病提供了良好的机会。然而,从 EHR 数据中有效提取临床知识一直受到信息稀疏和噪声的阻碍。我们提出了图注意力嵌入主题模型(GAT-ETM),这是一种基于端到端分类知识图的多模态嵌入主题模型。GAT-ETM 通过学习构建的医学知识图的嵌入,从 EHR 数据中提取潜在的疾病主题。我们将 GAT-ETM 应用于包含超过 100 万患者的大规模 EHR 数据集。我们根据主题质量、药物估算和疾病诊断预测来评估其性能。GAT-ETM 在所有任务上都表现出了优于替代方法的性能。此外,GAT-ETM 学习了具有临床意义的 EHR 代码的图形嵌入,并发现了可解释且准确的患者表征,用于患者分层和药物建议 patient stratification and drug recommendations.。GAT-ETM 代码可在GitHub - li-lab-mcgill/GAT-ETM: "Modeling electronic health record data using an end-to-end knowledge-graph-informed topic model" paper on Sci Rep (2022)获取。
电子健康记录 (EHR) 的数量和多样性的快速增长使得健康信息学研究能够细化疾病表型并发现新的疾病合并症。现代医院会定期生成标准化的 EHR 观察结果,例如用于诊断的国际疾病分类 (ICD)、用于处方的药物识别号 (DIN) 以及用于药物成分的解剖治疗化学物质 (ATC)。具体来说,ICD是一种广泛使用的医疗保健分类系统,用于对疾病、症状、体征、异常发现、社会环境、投诉以及伤害或疾病的外部原因进行分类。DIN(加拿大)或 NDC(美国)代码唯一标识在加拿大以剂型销售的所有经批准的药品。解剖治疗化学品(ATC)是世界卫生组织(WHO)维护的药物分类系统。每个 ATC 代码都特定于一种活性药物成分,它表明患者的健康状况。丰富的患者 EHR 信息可实现计算表型1、风险预测2、患者分层3和患者相似性分析4。
由于特征空间很大,通过对 EHR 数据的联合分布进行建模来提取有意义的医学概念具有挑战性。在各种机器学习方法中,主题模型提供了一种利用稀疏和离散数据的有效方法。它们最初是为了识别文本语料库中的单词出现模式而开发的5。主题模型推断词汇表上的一组分类分布(称为潜在主题),并通过主题混合来表示每个文档。在 EHR 的应用中,我们将每个患者的临床病史视为一个文档,并将每个 EHR 观察结果(例如 ICD 代码)视为其文档中的一个单词。我们的目标是了解具有临床意义的表型主题和患者的疾病混合成员资格。最近,开发了几种主题模型来有效地从 EHR 数据中推断潜在主题6 , 7 , 8 , 9。然而,由于对罕见行政代码的观察不足,这些方法通常在对罕见行政代码的建模中表现不佳,导致这些代码在推断的主题分布中代表性不足。
在本文中,我们提出了一种称为图注意力嵌入式主题模型(GAT-ETM)的神经主题模型。为了捕捉更高层次的医学概念,GAT-ETM 使用图注意网络 (GAT) 10通过多维度计算疾病代码和药物代码模式之间和内部关系的分类图来计算 EHR 代码的嵌入。头部注意力机制。然后,生成的 EHR 代码嵌入用于通过嵌入式主题模型 (ETM) 11从患者级 EHR 数据中推断出一组连贯的多模式主题。EHR 代码和潜在主题的嵌入的学习以端到端的方式同时进行,无需监督。我们在大型 EHR 数据集上评估了 GAT-ETM,该数据集包含加拿大魁北克省 120 万患者的管理记录。GAT-ETM 展示了高质量的主题推理和准确的药物插补。
最近,使用基于规则的12、13、14或机器学习技术15、16、17、18、19、20、21开发了许多基于 EHR 的自动表型算法。MixEHR 6将潜在狄利克雷分配 (LDA) 5扩展到多模态主题推理,以解释 EHR 数据分布的异构性。然而,MixEHR 无法利用知识图谱。为了在对噪声和稀疏 EHR 数据进行建模时获得更好的性能,最近的几种方法能够利用医学知识图。例如,GRAM 22和KAME 23采用注意力机制将医学知识纳入临床建模。GRAM 将分类层次视为先验知识,并为预测任务生成医学概念的表示。KAME 仅在循环神经网络(RNN)中使用与上次访问相关的医学知识。RETAIN 24 , 25是一个两级注意力模型,可检测有影响力的过去就诊以及这些就诊中的关键临床变量。DG-RNN 26采用了注意力模块,并使用长短期记忆 (LSTM) 来模拟连续的医疗事件。为了处理各种医疗保健任务,TAdaNet 27 元学习模型利用领域知识图来提供特定于任务的定制。这些最近的模型主要关注监督学习任务,因此它们的学习算法需要标记数据。最近的模型称为图形嵌入式主题模型 (GETM) 28 ,通过在管道方法中将 node2vec 29与嵌入式主题模型 (ETM) 30相结合来利用知识图。GETM 是一种无监督模型,它使用 node2vec 嵌入直接学习 EHR 数据的分布。然而,由于图嵌入是与 EHR 建模任务分开学习的,因此它可能并不总是有助于学习 EHR 数据。
表 1 符号定义。
与现有的工作相比,我们的贡献有三倍:
GAT-ETM是一个端到端的神经主题框架,它同时学习疾病(ICD-9代码)和药物(ATC代码)的医学知识图谱中的医学代码嵌入以及EHR数据中的主题嵌入;
为了提取有意义且可解释的疾病主题,我们使用线性解码器来重建 EHR 数据,以便线性投影可以直接映射到各个潜在主题;和,
为了最大化图上 EHR 节点之间的信息流,我们提出了一种图增强策略,通过沿着分类法将节点与其祖先节点连接起来;我们通过已知的疾病药物链接(即疾病的药物治疗)将两个知识图(ICD-9 和 ATC)结合起来,这允许在训练期间两种数据类型之间共享信息。
我们将患者数量、主题数量、ICD 词汇量和 ATC 词汇量表示为D、K、、, 分别。对于患者p,表示第 n 个类型代码。表达患者p的 EHR 历史的另一种方法是通过维频率向量。表示K 个疾病主题的K维概率混合隶属度,总和为 1。对于第k个主题,表示 ICD 或 ATC 模式的代码分配。主题嵌入权重由矩阵和,其中L是潜在嵌入空间的维度。类型的医疗代码的知识图谱 (KG) 通知嵌入表示矩阵。请注意,L 维嵌入在主题、ICD 代码和 ATC 代码之间共享。表 1列出了关键符号。�icd�atcc_{pn}^{(t)} t\in \{{\text {ICD}}, {\text {ATC}}\} (V_ {\text {icd}}+V_{\text {atc}}) {\mathbf {v}}_p {\varvec{\uptheta }}_p \varvec{\upbeta }^{(t)}_k L\times K {\varvec{\varvec{\upalpha }}}^{\text {(icd)}} {\varvec{\varvec{\upalpha }}}^{\text {(atc)}} t\in \{ {\text {icd}}, {\text {atc}}\} L\times V_{t} {\varvec{\varvec{\uprho }}}^{(t)}���(�)�∈{ICD,ATC}(�icd+�atc)��θθθθ�ββββ�(�)�×�αααααααα(icd)αααααααα(atc)�∈{icd,atc}�×��ρρρρρρρρ(�)
GAT-ETM 假设以下生成过程(图 1a):
对于每个患者:�∈{1,…,�}
绘制主题混合隶属度:θθθθ�∼��(0,�)
对于每个 EHR 代码、:���(�)�∈{icd,atc}
其中和Cat分别代表逻辑正态分布和分类分布。第k个主题分布由代码嵌入的内积定义和第 k个主题的主题嵌入:��\varvec{\varvec{\upbeta }}^{(t)}_k \varvec{\varvec{\uprho }}^{(t)} \varvec{\varvec{\upalpha }}_{\cdot k}ββββββββ�(�)ρρρρρρρρ(�)αααααααα⋅�
其中是类型t的代码v行嵌入,是主题k列嵌入。内积作为相似性度量,表示代码与主题之间的相关性。ρρρρρρρρ�.(�)⊺1×�\varvec{\varvec{\upalpha }}_{\cdot k} L\times 1αααααααα⋅��×1
EHR 语料库的边际对数似然为:
这涉及到每个患者的K 维潜在主题混合物为了近似对数似然,我们采用了使用变分高斯,由一组神经网络参数 31参数化。我们通过最大化以下证据下界(ELBO)来优化网络参数θθθθ�θθ�(θθ�∣��,�)��
的先验之间的 KL 散度。θθθθ�
为了使用 VAE 推断,我们有以下编码器架构。给定两种数据类型的 EHR 文档,编码器有两个输入层,具有整流线性单元(ReLU)激活函数,分别编码和具有两个 128 维向量和。然后我们对编码向量进行逐元素加法。得到的 128 维向量被传递给两个完全连接的前馈函数和生成建议分布的对于患者p:θθ�(θθ�∣��,�)��=[��(icd)||��(atc)]��(icd)��(atc)��(icd)��(atc)μμNNμμσσNNσσlogθθ�(θθ�∣��,�)
我们利用 ICD-ATC 知识图来学习代码嵌入。如图 1b所示,该知识图谱中有3种类型的关系:(1)通过链接每对祖先节点和子节点来增强ICD层次结构( https://icdlist.com/icd-9/index ) ,(2) ATC 层次结构 ( ATCDDD - ATC/DDD Index ) 通过连接每对后代和祖先而增强,以及 (3) ICD-ATC 关系 ( http://hulab.rxnfinder.org/mia /)。我们从它们对应的网站中提取这些关系,并构建了一个无向知识图,其中包含所有 ICD 和 ATC 代码作为节点,包含 ICD-ICD、ATC-ATC 和 ICD-ATC 关系作为边。ρρρρρρ(icd),ρρ(atc){\mathcal {G}}=\{{\mathcal {V}} , {\mathcal {E}}\} {\mathcal {V}} {\mathcal {E}}�={�,�}��
由于 ICD 和 ATC 分类法的树结构,生成的知识图是稀疏连接的。为了进一步改善信息流,我们通过将每个节点连接到其所有祖先节点来增强知识图(图 1 b)。
为了学习节点嵌入,我们使用了 GAT 10(图 1 c)。我们在其他图神经网络 (GNN) 中选择了 GAT,因为它可以通过多头自注意力机制灵活地用其邻居来表示每个节点。具体来说,我们首先通过在嵌入维度设置为 256 的知识图上训练 node2vec 模型29来初始化嵌入然后我们将得到的嵌入作为初始嵌入到多层 GAT,其将第i层的嵌入计算为:ρρρρ(0)
其中表示节点c的邻居节点,注意力系数计算如下:�(�)w_{cc'}^{(i)}���′(�)
其中是 GAT 网络第i层的参数。所有层的输出都经过最大池化,产生一个嵌入矩阵,表示为,用作等式中的 EHR 代码嵌入。(1)。��,��L \times V \varvec{\uprho }=[\varvec{\uprho }^{\text {(icd)}}||\varvec{\uprho }^{\text {(atc)}}]�×�ρρρρρρρρ=[ρρ(icd)||ρρ(atc)]
在上面的模型中,我们有一组可学习的参数,包括 VAE 编码器网络参数 for生成代码嵌入的GAT 网络参数,以及定点主题嵌入。为了学习它们,我们根据这些参数最大化 ELBO(方程 3 )。具体来说,我们使用随机优化,通过重新参数化技巧31采用预期梯度的蒙特卡罗近似来形成噪声梯度:��θθ�(θθ�∣��,��)��ρρρραααα
其中 \。δδμμσσδδ^�∼μμ�+σσ��(0,�)θθδδθθ^�=softmax(δδ^�)
为了处理大型 EHR 数据收集,我们使用小批量随机梯度下降来更新模型,每个小批量的大小为 32。算法 1 总结了 GAT-ETM 学习过程。|�|<<�
我们使用 Adam 优化器来训练 GAT-ETM。学习率设置为0.01。我们对变分参数使用 L2 正则化。权重衰减参数为。小批量大小为 512。主题和代码嵌入的嵌入大小设置为 256。推理编码器中的嵌入大小设置为 128。根据经验,我们发现 GAT 层数为 3,头数为 4 给出尽管 GAT-ETM 对于这些超参数设置相当稳健,但性能良好。我们训练模型直到收敛(由 ELBO 的边际改进确定)。1.2×10−6
为了评估我们的模型,我们使用了一个名为人口健康记录 (PopHR) 的现实世界大型 EHR 数据库,该数据库最初是为了从多个分布式来源监控人口健康而创建的33、34。PopHR 包含 120 万患者的纵向管理数据,随访时间长达 20 年。对于每位患者,我们折叠了时间序列数据,以获得在其整个病史中观察到的不同 EHR 代码的频率(即。我们将频率视为 EHR 文件。我们从两种类型的 EHR 数据开始:(1) 5107 个唯一的 ICD-9 代码,以及 (2) 超过 10,000 个 DIN 代码。由于不同的 DIN 代码可能表示不同强度的相同成分,因此我们根据其成分将 DIN 代码转换为 1057 ATC 代码。��
对于疾病分类任务,我们使用加拿大公共卫生局慢性病监测部门定义的相应规则35获得了 9 种慢性病的黄金标准标签。这些疾病包括急性心肌梗塞(AMI)、哮喘、充血性心力衰竭(CHF)、慢性阻塞性肺病(COPD)、糖尿病、高血压、缺血性心脏病(IHD)、癫痫和精神分裂症。此外,我们分别根据魁北克报告36、37和自闭症谱系障碍监测报告38中描述的疾病定义构建了 ADHD、HIV 和自闭症的黄金标准标签。因此,我们总共获得了 12 个表型,其中我们有基于规则的标签来评估给定模型的分类准确性,如“ 3.9表型分类任务”部分所述。
我们进行了文档完成任务并计算了对数似然作为预测能力的指标。我们将 PopHR 数据集分为 60% 训练、30% 验证和 10% 测试。我们将每个测试 EHR 文档随机分为两半。我们使用前半部分来预测测试患者的预期主题混合 (和另一半评估所保留的 EHR 令牌的预测对数似然。θθμμθθ¯�=softmax(μμ�
由于模型学习的主题的解释也至关重要,对于每个推断的主题分布,我们计算了它们的主题质量得分11,这是主题连贯性和主题多样性的乘积。主题一致性39测量每个主题的同一主题内最高代码的观察到的共现率。它被定义为从同一文档中随机抽取的两个代码的平均逐点互信息:
其中表示主题k中概率最高的前s 个代码,是单词和在 EHR 文档中同时出现的概率,并且的边际概率。主题多样性11衡量跨主题的独特性,这反映了模型捕捉表型多样性的能力。它被定义为所有主题中前r代码中唯一代码的百分比:{�1(�),…,��(�)}�(��(�),��(�))��(�)��(�)�(��(�))��(�)
其中是计算集合中唯一元素数量的函数。主题质量(TQ)定义为 TC TD。在我们的评估中,我们分别设置来计算TC和TD。我们分别测量了 ICD 代码和 ATC 代码的 TQ,然后计算它们的平均值。unique(⋅)×�=3,�=3
我们使用从规则生成的表型标签作为黄金标准来评估我们的模型(“数据处理”部分)。我们将数据集分为 72%、8% 和 20%,分别用于训练、验证和测试。我们首先训练了一个无监督模型,以从训练集中推断患者的主题混合隶属关系。作为输入特征来训练 LASSO 分类器,以使用训练集预测每个表型的表型标签。我们使用验证集从 0.01 到 1 的范围内选择 LASSO 中的 lambda 罚分。对于测试数据,我们首先使用经过训练的无监督模型来推断测试患者的主题混合物,然后使用经过训练的 LASSO 来预测他们的表型标签。我们通过接受者操作特征曲线下面积 (AUROC) 评估模型。较高的 AUROC 意味着通过相应的无监督方法得出的表型主题混合物信息更丰富。我们重复实验 10 次,以获得每种方法的 AUROC 估计值的标准差,每次都将不同的数据随机划分为训练集、验证集和测试集。θθθθ�
我们试图仅根据 ICD 代码来估算 ATC 代码。我们专注于药物插补,因为它作为药物推荐系统具有更实际的应用,即根据患者诊断来预测药物。具体来说,我们首先仅使用 ICD 代码从患者p的输入 EHR 中然后我们推断出每个 ACT 代码的期望。θθθθ^�ββθθ�^��(atc)=ββ�(atc)θθ^�
我们通过患者方面的准确性和药物方面的准确性来评估模型。对于患者准确率,我们比较了所有患者前 5 个预测的平均精度、召回率和 F1 分数(prec@5、recall@5、F1-score@5)。在训练和测试数据集中,ATC 代码少于 5 个的患者被过滤掉。
药物准确度衡量不同观察频率下的插补准确度。具体来说,我们将 ATC 代码排序并分为五个频率分位数,其中 0-20% 包含最稀有的 ATC 代码,80-100% 包含最常见的 ATC 代码。然后,我们计算每个 ATC 代码的召回率,并取每个箱中代码的平均值(按频率加权)。然后,我们计算每种方法每个分位数的前 30 名精度(即真阳性除以预测阳性)。
我们将 GAT-ETM 的性能与以下基准方法进行了比较:
MixEHR 6是一种生成式多模态主题模型。我们将其视为基线,因为它是为了处理高度稀疏性、偏差和异质性的 EHR 数据而开发的,但使用强平均场假设来执行潜在主题分布的变分推理。
ETM 30是一个主题模型,引入了单词和主题的特征嵌入。我们将其视为基线,因为它具有与 GAT-ETM 类似的生成过程,但不利用知识图。
GETM 28是一种嵌入式主题模型,通过将词嵌入初始化为 node2vec 的输出来利用 ICD 和 ATC 医学分类层次结构。请注意,GETM 分别仅获得 ICD 和 ATC 分类层次结构上的代码嵌入。它既不将 ICD 和 ATC 分类法连接在一起,也不进行增强。我们认为 GETM 作为基线,因为它利用外部医学知识图,尽管不是以端到端的方式。
基于实证研究,我们将基线模型和我们的模型的主题数量K设置为 100,将基于嵌入的方法(即 ETM、GETM 和 GAT-ETM)的嵌入维度数量设置为 256。为了与我们的进行公平比较,ETM 和 GETM 的推理网络(即编码器)层数设置为 3。
对于药物估算,我们还评估了两种传统方法:
基于频率的模型:我们统计了训练数据中所有 ATC 代码的出现次数,然后为测试患者估算最常见的代码。
K 个最近邻:对于测试集中的每个患者,我们根据其频率向量找到 K 个最近邻。然后,我们对最近邻居的 ATC 代码进行平均,作为测试患者的 ATC 预测。我们使用验证集选择了最佳邻居数量和最佳距离度量���∈{100,200,500,1000,5000}∈{���ℎ�����,���������}
进行消融研究来评估 GAT-ETM 的三个关键特征:
代码嵌入的初始化:当这个过程被丢弃时,我们随机初始化GAT的嵌入,而不是通过node2vec预先训练它们。
知识图的增强:当这个过程被丢弃时,我们没有将每个节点与其所有祖先连接起来。
图注意力网络:当这个模块被丢弃时,我们修复了由node2vec生成的代码嵌入。换句话说,它相当于具有增强、合并的知识图谱的GETM。
如表2所示 ,GAT-ETM在可能性和主题质量上都表现最好。在重建和主题质量方面,MixEHR 的表现与 ETM 类似,但与 GETM 和 GAT-ETM 相比明显较差。MixEHR 中神经主题模型相对于统计框架的优越性能可能归因于深度学习框架在捕获 EHR 代码嵌入方面的灵活性。同样正如我们预期的那样,ETM 在每个指标下的表现都比基于知识图的模型差,这可能是因为它在不利用图信息的情况下对稀疏和嘈杂的 EHR 数据进行建模的不足。与 GAT-ETM 相比,GETM 实现了更高的 TD 但更低的 TC,这意味着 EHR 代码上的主题分布更加多样化,但与 PopHR 数据集的一致性较差。事实上,GETM 仅从单独的知识图学习代码嵌入,然后在 EHR 数据集上的 ETM 训练期间修复它。相比之下,GAT-ETM 在对 EHR 数据集进行建模的同时,利用 GAT 灵活地微调 node2vec 预训练代码嵌入。与 GETM 相比,这导致了更高的 TC 和更高的总体 TQ 以及更好的重建性能。
表 3总结了消融研究的结果。我们向原始 GETM 引入的所有三个新颖功能都在预测性能和主题质量方面带来了显着改进。考虑到对数似然,图增强对我们模型的预测能力的提高最大,其次是支持端到端训练方式的 GAT 模块。考虑到 TQ,预训练代码嵌入起着最关键的作用。与表2中GETM在重建损失(184.32)和TQ(0.1843)方面的表现相比 ,我们发现具有图增强的GETM实现了较低的重建损失(180.44)但较差的TQ(0.1768)。这可能是由于医学概念之间的联系并不相同,而是类型和分量不同。这一发现凸显了使用 GAT 为边缘分配不同注意力的重要性。
图1
表2 重建损失和主题质量。(Recon.,保留的 EH 数据的重建误差;NLL.,保留的数据的负对数似然。两者都越低越好。)。
表 3 消融研究。
我们通过对 12 个基于规则的表型进行表型分类来进一步评估每种方法(“表型分类任务”部分)。GAT-ETM 在所有 12 种慢性疾病的 AUROC 方面实现了最准确的分类性能(图 2)。与ETM相比,GETM具有更高或相当的性能,这体现了利用知识图信息的价值。因此,GAT-ETM 能够为 12 个自动表型分析任务生成信息丰富的患者潜在嵌入。
图2
使用专家得出的基于规则的标签对表型进行分类。我们将 GAT-ETM 和三种基线无监督表型方法(GETM、ETM 和 MixEHR)应用于无监督的 PopHR 数据。对于每种表型,我们使用患者的主题混合作为特征来训练 LASSO 分类器。条形图显示接受者操作特征曲线下的平均面积 (AUROC),将基于规则的表型标签视为黄金标准。误差条表示 10 次重复实验的标准偏差,每次实验都采用不同的随机分割训练、验证和测试数据。
表 4 患者估算测量。
表 5 不同药物频率百分位数的 Top-30 药物插补精度。
接下来,我们评估了药物插补准确性方面的模型性能(“药物插补任务”部分)。表 4显示了按患者插补性能的结果。GAT-ETM 在所有 3 个指标上均取得了最高分。在药物插补精度方面,GAT-ETM 也优于两个基线(表 5)。具体来说,与 ETM 相比,GAT-ETM 的精度@30 在 20-40% 时提高了 9 倍,在 40-60% 时提高了 5 倍,在 60-80% 时提高了 3 倍,在 80-100% 分位数时提高了 25%观察到的频率。与 GETM 相比,GAT-ETM 的精度@30 在 20–40% 上提高了 62%,在 40–60% 上提高了 55%,在 60–80% 上提高了 33%,在 80–100% 上提高了 5%。这表明,通过嵌入学习灵活利用知识图谱,GAT-ETM 为药物插补赋予了更高的精度,特别是在预测低频率观察的 ATC 代码方面。
然后我们进行了案例研究,以进一步确定我们的药物估算结果。对于每位患者,我们测量了每个估算的 ATC 代码与原始知识图中观察到的 ICD 代码的距离。我们折叠了 ICD 和 ATC 的最后一个分类级别,以便于分析,同时保留足够的粒度。作为示例,图 3显示了基于观察到的 ICD 代码297.0、297.1、298.8、307.9及其父代码的前 3 个估算的 ATC 代码(N05AX08、N05AH03、N03AG01)。从估算的 ATC 代码到观察到的 ICD 代码的距离为 3,因为它需要遍历其他相关的 ICD 代码才能到达观察到的 ICD 代码。具体来说,前两个节点的最小路径为 { N05AX08 , N05AH03 } 295 295-299 297.0。N03AG01的最小路径为N03AG01 346 A03AX 307.9。→ → → → → →
遵循上述原则,图 4显示了三个估算最准确的患者(a、b、c)和三个估算最不准确的患者(d、e、f)的前 10 个估算的 ATC 代码与观察到的 ICD 代码的距离。 )。我们计算了所有 ATC 代码与观察到的 ICD 代码的平均距离以进行比较。事实上,与每位患者的平均距离相比,所有前 10 个估算的 ATC 代码,但其中一个与观察到的 ICD 代码的距离较小,即使对于估算最不准确的患者也是如此。唯一的例外是为患者 e 估算的最后一种药物,其与他/她观察到的 ICD 代码的距离为 7,而在本例中平均距离为 5.68。类似地,与 6 名患者中每一位的所有 ATC 代码与观察到的 ATC 代码的平均距离相比,前 10 个估算的 ATC 代码中的大多数也更接近观察到的 ATC 代码(图 5 )。这意味着即使对于估算不准确的患者,推荐的 ATC 代码也与他们观察到的 ICD 代码高度相关。更具体地说,图 6显示了观察到的 ICD 代码和患者 e(即第二个最不准确的估算患者)推荐的前 10 个 ATC 代码。GAT-ETM 推荐的药物确实与观察到的疾病代码表现出已知的关联,其中一些疾病代码在患者中观察到不止一次(例如,601.9 前列腺炎为同一患者观察到 3 次)。
为了定性评估每个主题涉及的疾病合并症,我们根据前 5 个 ICD 和 ATC 代码检查了 5 个随机选择的主题(图 7)。这 5 个主题对应于一组不同的疾病状况或药物。事实上,我们观察到主题内的高度一致性和主题间的多样性。具体来说,这5个主题,即主题15、25、61、72和78,分别与肺炎、囊性纤维化(CF)、先天性心脏缺陷(CHD)、甲状腺炎和结缔组织疾病(CTD)相关。值得注意的是,CF还会对肺和呼吸系统造成严重损害。因此,主题 15(CF)和 25(肺炎)之间的顶级 ATC 代码有重叠。此外,同一主题下的许多顶级代码来自相同的高级类别或 ICD 或 ATC 层次结构的相同子树。不属于同一类别的顶级代码也具有临床相关性。例如,主题 25 囊性纤维化会引发肺部疾病和呼吸道疾病。
然后,我们使用 t 分布随机邻域嵌入 (t-SNE) 可视化 ICD 和 ATC 的代码嵌入(图 8)。作为概念验证,这些代码不仅会聚类成相似的类别,而且如果它们表现出假定的治疗关系,它们也会彼此靠近。例如,“13-皮肤和皮下组织”类别中的 ICD 代码和“4-皮肤病学”类别中的 ATC 代码(粉红色)紧密地聚集在一起;“3-内分泌、营养代谢疾病、免疫性疾病”类别中的ICD代码和“1-消化道与代谢”类别中的ATC代码(橙色)聚集在一起;“1-传染性和寄生虫”中的 ICD 代码与 ATC 代码“7-全身使用的抗感染药”和“11-抗寄生虫产品、杀虫剂和驱虫剂”聚集在一起;“8-循环”类别中的 ICD 代码与“8-循环”类别中的 ATC 代码聚集在一起“3-心血管系统”。
在本研究中,我们提出了一种端到端的图嵌入主题模型,该模型:(1)在同一嵌入空间中学习可解释的主题和代码嵌入;(2)能够处理多模态数据;(3) 利用医学知识图来定量和定性地提高性能。我们将 GAT-ETM 与几种现有方法在 EHR 重建任务、自动表型分析任务和药物插补任务上的性能进行了比较。GAT-ETM 在这些任务中始终优于其他方法。这些结果展示了我们端到端学习框架的优势。此外,我们还表明,整合多个视图(即我们上下文中的 ICD 和 ATC)的知识图可以带来互补信息来表征相同的表型。此外,我们的图增强策略改善了分类图的信息流。定性分析进一步表明,GAT-ETM 学习了连贯的表型主题和 EHR 代码的有意义的潜在嵌入。
在未来的工作中,我们将探索四个有前景的方向。首先,我们将利用具有更丰富关系的大型、全面的生物医学知识图,不仅包括 ICD 代码和 ATC 代码,还包括其他代码,例如通用医学语言系统(UMLS)和其他地方提供的基因本体术语。此外,我们将把 GAT 扩展到多关系图,以解决异构图的问题。例如,一种药物可能治疗或诱发一种疾病,这应该被视为不同类型的关系。此外,在这项工作中,对于药物图,我们使用仅具有药物分类层次结构信息的 ATC 代码。我们计划将药物相互作用(DDI)纳入未来基于多关系图的方法中,以便我们可以在没有副作用的情况下估算药物。
其次,主题可识别性是完全无监督主题建模中的一个挑战。引导主题模型40、41利用专家策划的表型概念(例如PheCode和临床分类软件(CCS)42)来指导疾病主题推断。未来,我们将把引导机制作为图嵌入学习中的锚主题节点,以生成可识别且可能更可解释的主题。
第三,注意力机制使我们能够跟踪输入特征22、43的贡献。GAT-ETM 利用 GAT 网络,其中每个节点计算其邻居的注意力权重,然后通过注意力权重控制信息流。这为研究深度学习框架的黑匣子以了解疾病之间的联系提供了场所。我们将找到有效的方法来剖析 EHR 代码之间的注意力权重,以预测它们的合并症关联。
最后,我们将利用纵向 EHR 数据。我们将把我们的模型扩展到动态主题模型44,该模型解释了患者健康状况随时间的演变。有多种方法可以跟踪患者的健康状况。一是将纵向访问视为带有时间戳的文档系列。基于此,我们可以推断疾病进展并训练预测模型。在对纵向 EHR 进行建模时,我们还需要考虑门诊数据中的不规则就诊。另一种方法是按固定分区(例如年龄)对访问进行分组。这种方法可以模拟年龄依赖性疾病(例如高血压)的进展。
图4
3 位最准确估算患者和 3 位估算最不准确患者的药物估算示例。每个面板显示患者最常使用的 10 种药物。每个条形的高度和颜色分别表示估算的概率及其正确性。每个条上方注释的是从每个估算的 ATC 到患者观察到的任何 ICD 代码的最短距离。作为参考,每个图中所示的平均距离是同一患者的所有 ATC 代码与观察到的 ICD 代码之间的平均距离。
图5
3 位估算最准确的患者和 3 位估算最不准确的患者的估算 ATC 与真实 ATC 代码的距离。与图 4类似,每个面板显示了排名前10的ATC药物的信息。条形的高度和颜色表示估算的概率及其是否正确。每个条上方注释的是从每个估算的 ATC 到任何观察到的 ATC 代码的最短距离。作为参考,每个面板中指示的平均距离是从同一患者的所有 ATC 代码到观察到的 ATC 代码的平均距离。
图6
观察到的 ICD 代码与患者 e 的估算 ATC 之间的联系如图 4所示。距离不超过3的ICD-ATC对被链接。我们观察到估算的 ATC 代码与观察到的 ICD 代码密切相关。每个 ICD 代码的患者内频率都有注释。底部提供了每个估算的 ATC 代码的简短描述。
图7
针对不同条件的 5 个选定主题的前 5 个 EHR 代码。在两个单独的热图中显示了相同主题的前 5 个 ICD 和 ATC 代码。热图强度与主题下每个代码的概率成正比。每个热图左侧的颜色条表示相应代码的一级类别。
图8
EHR 代码基于GAT-ETM学习到的嵌入t-SNE 应用于嵌入,将其维度从L减小到 2,以实现代码聚类的可视化。如图例所示,形状和分别表示ICD和ATC代码;颜色表示不同的高级类别。对齐的 ICD 和 ATC 类别分配有相同或相似的颜色。在 ICD/ATC 词汇表中,同一类别的节点被分组在一起。每组都被圈出并标有缩写。ICD 和 ATC 组名称分别以常规字体和斜体字体显示。ρρρρ+×
由于加拿大魁北克省的隐私法和政策,当前研究期间生成和分析的数据未公开。GAT-ETM 代码可在GitHub - li-lab-mcgill/GAT-ETM: "Modeling electronic health record data using an end-to-end knowledge-graph-informed topic model" paper on Sci Rep (2022)上公开获取。
Baytas,IM,Xiao,C.,Zhang,X.,Wang,F.,Jain,AK,& Zhou,J。通过时间感知 LSTM 网络进行患者子类型,第23 届 ACM SIGKDD 国际知识发现和会议论文集数据挖掘65–74 (2017)
Cheng, Y.、Wang, F.、Zhang, P. 和 Hu, J. 使用电子健康记录进行风险预测:深度学习方法,载于2016 年 SIAM 国际数据挖掘会议记录432–440(SIAM,2016 年) )
兰迪,I.等人。电子健康记录的深度表示学习可大规模解锁患者分层。NPJ 数字医学。 3 (1), 1–11 (2020)。
Zhu, Z.、Yin, C.、Qian, B.、Cheng, Y.、Wei, J. 和 Wang, F. 通过具有医学概念嵌入的深层架构测量患者相似性,IEEE 第 16 届国际数据挖掘会议(ICDM) 749–758(IEEE,2016)
Blei,DM,Ng,AY 和 Jordan,MI 潜在狄利克雷分配。J.马赫. 学习。资源。 3(一月),993–1022(2003)。
李,Y.等人。从电子健康记录中推断多模式潜在主题。纳特。交流。 11、2536(2020)。
阿胡贾,Y.等人。SureLDA:电子健康记录的多疾病自动表型分析方法。J. Am. 医学。通知。副教授。 27(8),1235-1243(2020)。
Ahuja, Y.、Zou, Y.、Verma, A.、Buckeridge, D. 和 Li, Y. MixEHR 引导:一种使用电子健康记录进行大规模自动表型分析的引导多模式主题建模方法。生物Rxiv (2021)
Song, Z.、Toral, X. S.、Xu, Y.、Liu, A.、Guo, L.、Powell, G.、Verma, A.、Buckeridge, D.、Marelli, A. 和 Li, Y. 监督多重-在大规模电子健康记录数据上的应用的专业主题模型,第 12 届 ACM 生物信息学、计算生物学和健康信息学会议论文集1-26 (2021)
Veličković、P. 和 Cucurull、G. Arantxa Casanova、Pietro Liò 和 Yoshua Bengio。图注意力网络,Adriana Romero (2018)。
Dieng, A. B.、Ruiz, Francisco, J. R. 和 Blei, D. M. 嵌入空间中的主题建模 (2019)
德莱尔,S.等人。使用电子病历识别社区获得性肺炎:制定可复制的自动化策略。PLoS ONE 8 (8),e70944 (2013)。
莫,H.等人。电子健康记录驱动的表型算法的可计算表示的需求。J. Am. 医学。通知。副教授。 22(6),1220-1230(2015)。
Xi,N.等人。在初级保健电子病历系统中识别哮喘患者:基于图表分析的电子算法验证研究。能。家人。物理。 61 (10),e474–e483 (2015)。
Henriksson, A. 临床文本的语义空间:利用分布式语义进行电子健康记录的自然语言处理。博士论文,计算机与系统科学系,斯德哥尔摩大学(2013)
吴,ST等人。使用自然语言处理进行哮喘队列识别的自动图表审查:一项探索性研究。安. 过敏哮喘免疫学。 111 (5), 364–369 (2013)。
范,J.等人。计费代码算法可根据管理数据识别外周动脉疾病病例。J. Am. 医学。通知。副教授。 20 (e2), e349–e354 (2013)。
阿夫扎尔,Z.等人。提高机器学习方法的灵敏度,以从自由文本电子病历中自动识别病例。BMC 医学。通知。决定。麦。 13(1),1-11(2013)。
希瓦德,C.等人。使用电子健康记录识别患者表型队列的方法综述。J. Am. 医学。通知。副教授。 21(2),221-230(2014)。
Lipton, Z. C.、Kale, D. C.、Elkan, C. 和 Wetzel, R. 学习使用 LSTM 循环神经网络进行诊断。arXiv 预印本。arXiv:1511.03677(2015)。
阿尔佐比,H.等人。使用电子健康记录的自动表型分析方法的回顾。电子学 8 (11), 1235 (2019)。
Choi, E.、Bahadori, M. T.、Song, L.、Stewart, W. F. 和 Sun, J. GRAM:用于医疗保健表示学习的基于图的注意力模型(2017)。
Ma,F.,You,Q.,Xiao,H.,Chitta,R.,Zhou,J.&Gao,J. Kame:医疗保健诊断预测的基于知识的注意力模型,第27 届 ACM 国际会议论文集关于信息和知识管理743-752(2018)。
Choi, E.、Bahadori, M. T.、Sun, J.、Kulas, J.、Schuetz, A. 和 Stewart, W. Retain:使用逆时注意力机制的医疗保健可解释预测模型,《神经信息处理系统进展》 29 (2016)
Kwon,BC等。Retainvis:电子病历上具有可解释和交互式循环神经网络的可视化分析。IEEE 传输。维斯。计算。图形。 25(1),299-309(2018)。
Yin, C.、Zhao, R.、Qian, B.、Lv, X. 和Zhang, P. 领域知识指导电子健康记录的深度学习,IEEE 国际数据挖掘会议 (ICDM) 738–747 (IEEE, 2019)。
Hajij, M.、Zamzmi, G. 和 Batayneh, F. TDA-net:融合持久同源性和深度学习特征,用于从胸部 X 射线图像检测 covid-19,第43 届 IEEE 医学工程国际年会生物学会 (EMBC) 4115–4119(IEEE,2021)。
Wang, Y.、Benavides, R.、Diatchenko, L.、Grant, A. 和 Li, Y。图形嵌入主题模型能够表征英国生物库个体中的不同疼痛表型。BioRxiv (2022)。
Aditya, G. & Jure, L. node2vec:网络的可扩展特征学习(2016)。
Dieng, AB、Ruiz、FJR 和 Blei, DM 嵌入空间中的主题建模。跨。副教授。计算。语言学家。 8、439-453(2020)。
Kingma, D. P. 和 Welling, M. 自动编码变分贝叶斯。arXiv 预印本。arXiv:1312.6114(2013)。
Hoffman, MD、Blei, DM、Wang, C. 和 Paisley, J. 随机变分推理。J.马赫. 学习。资源。 14、1303-1347(2013)。
Shaban-Nejad, A.、Lavigne, M.、Okhmatovskaia, A. 和 Buckeridge, D. PopHR:支持人口健康数据整合、分析和可视化的知识平台:人口健康记录 (PopHR)。安. 纽约学院。科学。 1387 , 10 (2016)。
Yuan, M.、Powell, G.、Lavigne, M.、Okhmatovskaia, A. 和 Buckeridge, D. 基于知识的人口健康信息系统的初步可用性评估:人口健康记录 (PopHR)。安. 症状。过程。AMIA 1878–1884 (04), 2018 (2017)。
利克斯,LM等人。加拿大慢性病监测系统:协作监测模型。国际。J.波普尔。数据科学。 3 (3), 433 (2018)。
瓦西利亚迪斯,H.-M。等人。1999 年至 2012 年间加拿大儿童和年轻人确诊 ADHD 患病率和发病率的时间趋势:一项数据关联研究。能。J.精神病学家。 62(12),818-826(2017)。
Durand, M.、Sheehy, O.、Baril, J.-G.、Lelorier, J. 和 Tremblay, CL HIV 感染、抗逆转录病毒治疗与急性心肌梗死风险之间的关联:一项队列和巢式病例对照研究,使用魁北克省的公共健康保险数据库。J. 收购。免疫缺陷。综合。 57 (3), 245–253 (2011)。
Diallo, F. B.、Rochette, L.、Pelletier, E. 和 Lesage, A.魁北克自闭症谱系障碍监测(魁北克国家公共卫生研究所,2017 年)。
Lau, J. H., Newman, D. & Baldwin, T. 机器阅读茶叶:自动评估主题连贯性和主题模型质量,计算语言学协会第 14 届欧洲分会会议记录530-539 (2014)。
Ahuja, Y.、Zou, Y.、Verma, A.、Buckeridge, D. 和 Li, Y. MixEHR-Guided:一种使用电子健康记录进行大规模自动表型分析的引导多模式主题建模方法。J.生物医学。通知。 134、104190 (2022)。
Song, Z.、Hu, Y.、Verma, A.、Buckeridge, D. L. 和 Li, Y. 通过种子引导主题模型进行自动表型分析,第28 届 ACM SIGKDD 知识发现和数据挖掘会议论文集,KDD ' 22 4713–4723(计算机协会,2022 年)。
魏,W.-Q。等人。评估电子健康记录中表型组关联研究的 phecode、临床分类软件和 ICD-9-cm 代码。PLoS ONE 12 (7), e0175508 (2017)。
Avsec,Ž等人。通过整合长程相互作用,根据序列进行有效的基因表达预测。纳特。方法 18 (10), 1196–1203 (2021)。
Dieng, A. B.、Ruiz, F. J. R. 和 Blei David, M. 动态嵌入主题模型。arXiv 预印本。arXiv:1907.05545(2019)。
加拿大蒙特利尔麦吉尔大学计算机科学学院
邹月松、Ahmad Pesaranghader、宋紫阳、李悦
人口与全球健康学院,麦吉尔大学,蒙特利尔加拿大
阿曼·维尔玛 & 大卫·巴克里奇
YL 构思了这项研究。YZ 在 ZS 的帮助下实现了软件并进行了实验。AV 处理数据。DB 提供了数据并帮助解释结果。YZ 和 YL 撰写了主要手稿文本。所有作者都审阅了手稿。
通讯作者: 岳丽。
开放获取本文根据知识共享署名 4.0 国际许可证获得许可,该许可证允许以任何媒介或格式使用、共享、改编、分发和复制,只要您对原作者和来源给予适当的认可,提供知识共享许可的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可中,除非材料的出处中另有说明。如果文章的知识共享许可中未包含材料,并且您的预期用途不受法律法规允许或超出了允许的用途,则您需要直接获得版权所有者的许可。要查看此许可证的副本,请访问CC BY 4.0 Deed | Attribution 4.0 International | Creative Commons。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。