赞
踩
文章地址:https://academic.oup.com/bib/article-abstract/24/2/bbad082/7073967?redirectedFrom=fulltext&login=true
DOI:https://doi.org/10.1093/bib/bbad082
期刊:BRIEFINGS IN BIOINFORMATICS
2022年影响因子/JCR分区:13.994/Q2
发布时间:2023年5月9日
Github: https://github.com/MrZQAQ/MCANet
准确有效的预测药物-靶标相互作用(drug–target interaction,DTI)可以大大缩短药物开发周期,降低药物开发成本。在基于深度学习的DTI预测范式中,鲁棒的药物和蛋白质特征表征及其相互作用特征对提高DTI预测的准确性起着关键作用。此外,药物目标数据集中的类不平衡问题和过拟合问题也会影响预测精度,减少计算资源的消耗和加快训练的过程也是关键考虑因素。在本文中,作者提出了共享权重的多头交叉注意力,这是一种精确而简洁的注意力机制,可以建立靶点和药物之间的关联,使所提出的模型更加准确和快速。然后,作者利用交叉注意力机制构建了两个模型:MCANet和MCANet-b。在MCANet中,利用交叉注意力机制提取药物和蛋白质之间的相互作用特征,提高药物和蛋白质的特征表示能力,并利用PolyLoss损失函数缓解药物-目标数据集中的过拟合问题和类不平衡问题。在MCANet-b中,通过组合多个MCANet模型,提高了模型的鲁棒性,进一步提高了模型预测精度。作者在六个公共药物目标数据集上训练和评估所提出的方法,并取得了目前最好的结果。与其他基线方法相比,MCANet节省了大量的计算资源,同时保持了最优的精度;而MCANet-b通过组合多个模型,在平衡计算资源消耗和预测精度的同时,极大地提高了预测精度。
药物开发和药物发现是生物医学的一个重要研究领域。深度学习和机器学习在在生物信息学领域取得了不容置疑的成绩。与此同时,测序技术在过去几年中变得越来越先进。因此,测序成本逐渐降低,测序数据量呈指数级增长。鼓励人们利用机器学习和深度学习算法挖掘隐藏在这些数据之下的有价值的信息,以推进生物技术研究。目前,有大量的药物-靶标相互作用(Drug–target interactions,DTIs)数据,如DrugBank, KIBA和Davis。已经开发了许多基于机器学习和深度学习的方法来使用这些数据预测DTI。
深度学习可以通过特征的反向传播从训练数据中自动学习,对数据中的噪声不敏感,不需要人工设计特征。目前,深度学习被广泛应用于DTI预测。除了CNN和transformer之外,还有许多基于图神经网络(graph neural network,GNN)的DTI预测方法。虽然GNN在检测关系方面做得更好,但GCN的缺点是不灵活,难以转换,难以扩展到大规模网络,收敛速度慢。
在其他研究中,特征是使用多种方法组合提取的。但这类方法通常具有更复杂的模型和大量的参数。在数据量较小的情况下,可能会出现欠拟合,并且也没有考虑到交互特征和初始特征的有机结合。
作者提出了一种用于DTI预测的端到端神经网络模型,即MCANet。MCANet首先通过两个平行的CNN块从蛋白质和药物序列中学习低维表示特征。然后,利用提出的基于共享权重的多头交叉注意力模块从蛋白质-药物相互作用的低维表示中学习蛋白质-药物相互作用的表示。与以往的注意力不同,基于共享权重的多头交叉注意力首先以蛋白质为查询,药物为键值计算蛋白质特征,然后以药物为查询,蛋白质为键值计算药物特征。由于MCANet是一个轻量级的网络模型,作者将在k-fold交叉验证过程中生成的多个经过训练的MCANet进行集成,即MCANet-b,从而大大提高了预测性能。与其他先前的基线方法相比,作者提出的方法在公共药物目标数据集上表现出优异的性能。
作者使用三个公开可用的数据集:Davis、KIBA和DrugBank来训练和评估所提出的方法。Davis和KIBA是包含激酶相关蛋白和药物对的数据集,作者分析了药物分子之间的相似性和蛋白质之间的同源性。Davis和KIBA内部的药物分子相似度较低,但在这两个数据集中有一些同源蛋白。DrugBank是一个全面的数据集,包括药物及其目标的信息。Davis数据集包括72种激酶抑制剂和442种激酶之间的相互作用,其中68种药物和379种蛋白质被挑选出来,得到7320个阳性例子和18452个阴性例子。KIBA数据集是激酶抑制剂生物活性(kinase inhibitor bioactivity,KIBA)的数据集。它利用2068种药物和225种蛋白质制作了22154个阳性样本和94196个阴性样本。对于DrugBank,作者采用HyperAttentionDTI中使用的数据集构建方法,排除了非常微小的药物分子和RDKit无法识别的药物分子,从4294种蛋白质和6655种药物中获得了17511个阳性样本和17511个阴性样本。
蛋白质作为药物作用的主要靶点,通常可分为酶(enzyme)、G蛋白偶联受体(GPCR)和离子通道(Ion Channels)等。因此,作者构建了三个关于酶、离子通道和GPCR的数据集,以评估不同目标类别的预测性能。酶和离子通道收集自公共数据库:KEGG BRITE、DrugBank、SuperT target和BRENDA。对于酶,作者从660种蛋白质和444种药物中构建了2920个阳性样本和2920个阴性样本。对于离子通道,使用204种蛋白质和210种药物产生1475个阳性样本和1475个阴性样本。从GLASS数据库中收集GPCR,从中选择296种蛋白和567种药物,产生3098个阳性样本和3099个阴性样本。
作者提出的MCANet的总体架构如图所示。它由四个部分组成:两个嵌入层,用于将药物序列和蛋白质序列的特征向量映射到嵌入层中,两个CNN块用于特征提取;基于共享权重的多头交叉注意力块,用于提取药物和蛋白质之间的相互作用特征;以及用于分类的预测块。在该网络模型中,将药物和蛋白质的数字编码送入嵌入层,输出嵌入特征向量,分别作为药物CNN块和蛋白质CNN块的输入,生成表征特征。基于共享权重的多头交叉注意力层将这些表示特征作为输入,并将它们混合以提取药物和蛋白质之间的相互作用特征。最后,预测块利用这些交互特征对DTI进行预测。
将药物smile序列中的符号编码为1-64的整数,将氨基酸序列中的符号编码为1-24的整数。使用0填充编码序列的一端,以保持序列的长度固定。
由于药物和蛋白质属于不同的特征空间,这两个CNN块不共享权值。图1显示了这两个CNN块,每个块由三个卷积组成,每个卷积后面跟着一个ReLU激活函数。
具有共享权重的线性层用于将药物和蛋白质的特征映射到查询、键和值。接下来是蛋白质注意力子模块和药物注意力子模块之间的键和值交换。然后进行多头蛋白质注意力和多头药物注意力的计算,得到特征图ZPc和ZDc。最后,将这些参与的特征添加到它们的初始特征中,以生成最终的特征映射。
基于共享权重的多头交叉注意力,用于捕获药物和蛋白质之间的相互作用特征,以提高预测的准确性。自注意力使用相同的序列来生成查询、键和值,以捕获序列中的相互关系。然而,作者所提出的基于共享权重的多头交叉注意力利用药物分子序列和蛋白质序列来生成查询、键和值,以捕获它们之间的相互关系。参与的特征映射与初始特征映射相结合,生成混合特征映射。混合特征图谱除了自身特征外,还包括药物与蛋白质之间的相互作用特征。在基于共享权重的多头交叉注意力中,药物注意分量和蛋白质注意分量共享权重来提取药物和蛋白质之间的结合特征,这些特征通常提示潜在的相互作用位点。
预测块由两个全局maxpooling层、一个连接层和一个全连接网络(fully connected network,FCN)组成。FCN由dropout层、全连接层和leaky ReLU激活函数组成。dropout层用于避免训练过程中的过拟合。前三层的排列是dropout层、全连接层和leaky ReLU激活函数。然而,最后一层只包含一个全连接层。
在K-fold交叉验证过程中,可以生成K个模型,而这K个模型所使用的训练数据集并不完全相同,这也导致了训练模型的权重不同。因此,可以将交叉验证过程中得到的模型组合起来,生成更大的模型,预测精度更高。在实际的训练过程中,作者使用5次交叉验证程序。首先将数据集分为两部分:训练数据集和测试数据集。然后将训练数据集再次分为五个部分。将数据的四层作为训练数据对模型进行训练。数据的其余部分用作验证数据,以评估结果模型。这样,可以得到5个训练好的模型,将它们组合成一个大模型,称为mcinet -b。这种方法可以在不增加训练资源消耗的情况下有效地提高预测精度,但只需要在推理过程中消耗适当的内存。
为了验证所提出的MCANet的性能,在三个数据集(DrugBank、Davis和KIBA)上训练了MCANet和基线方法,并使用一系列评估指标(如准确性(accuracy,ACC)、精密度(precision)、召回率(recall)、AUC和AUPR)对它们进行了评估。
在DrugBank上绘制了MCANet和其他基线的Precision-Recall曲线(图5),MCANet在DrugBank、Davis和KIBA三个数据上的P-R曲线(图6)。
在三个额外的数据集上进行实验:酶、离子通道和GPCR,以评估不同目标类别的预测性能。
为了进一步证实所提出的MCANet的性能,作者使用配对T检验对MCANet与其他基线在不同评价指标(如Accuracy、Precision、Recall等)上进行统计比较。
作者分析了所提出的MCANet和基线反方的GPU内存消耗和模型复杂性。
作者对DrugBank数据集进行了消融实验,以评估网络模型中使用的多头交叉注意力(MultiheadCrossAttention,MCA)和PolyLoss损失函数的有效性。
在DrugBank数据集上,作者研究了不同数量网络模型组合的集成模型的准确性和AUPR的变化。
为了证明所提出方法的有效性和泛化能力,作者从DrugBank数据集中随机选择了两个目标蛋白和与它们相互作用的药物,然后去掉这些蛋白质和药物,用剩下的数据作为训练数据来预测它们。
作者再次从药物库数据集中随机选择了两种药物和与它们相互作用的靶蛋白,然后去掉它们,使用剩余的数据来训练我们的方法来预测它们。
作者提出了一个端到端,资源高效的深度学习模型,称为MCANet,它从药物分子和氨基酸序列中提取特征,并使用这些特征进行DTI预测。该模型采用基于共享权重的多头交叉注意力模块高效提取药物与靶标之间的鲁棒表示特征,并采用PolyLoss损失函数改善过拟合问题和类不平衡问题。与现有仅使用蛋白质序列和药物分子序列进行DTI预测的最先进方法相比,所提出的MCANet在六个不同的数据集上取得了领先的性能。此外,作者提出了一个集成模型MCANet-B,该模型通过对k-fold交叉验证过程中生成的多个模型进行集成,显著提高了预测性能。
由于作者提出的方法是轻量级模型,因此可以通过添加多种类型的输入来扩展它们,以进一步提高预测性能。对于蛋白质,除氨基酸序列外,K-mer特征和PSSM等统计特征也可作为网络模型的输入;对于药物,除了SMILES字符串外,MACCS指纹和PubChem指纹也可以作为网络模型的输入。此外,DTI领域的网络模型的超参数通常是根据工程师的经验手动设置的。因此,未来作者将使用神经结构搜索(neural architecture searchN,AS)来确定模型的超参数,以进一步提高预测性能。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。