赞
踩
论文解读:基于图神经网络与蛋白质接触图的药靶亲和力预测(二)2021SC@SDUSC
Drug–target affinity prediction using graph neural
network and contact maps
CI主要用于计算分析中预测值与真实值之间的区别
其中bx为较大亲和dx的预测值,by为较小亲和dy的预测值,Z为归一化常数;h(x)为阶跃函数(前面说分析真实值与预测值与公式中只有预测值带入有点矛盾,但是字面意思是一致性,那么肯定是越大越好)
MSE也是衡量预测值和真实值之间差的公共度量。
皮尔森相关系数也用于进行性能比较:
DeepDTA文中所引入的一个性能度量指标
其中,r2和r02分别为有截距和无截距的平方相关系数。(有点没懂,放上原文解释)
8种组合,在davis数据集上进行测试,由于硬件性能限制,在最多三个层上进行实验
不同架构直接的对比实验,
结果分析一:当使用三层GCN模型来描述蛋白质时,表示更准确。
结果分析二:与GCN和GAT相比,GCN的性能更好。在GraphDTA中,使用了GCN和GAT的组合,是在GAT层之后接着的GCN层。在我们的实现中,使用了两种组合,但没有一种能达到最佳的性能。可能通过注意机制不能有效地提取蛋白质特征。
在前向传播过程中,引入dropout可以在一定概率p之下阻止神经元的工作,从而提高模型的泛化,有效解决问题。dropout概率的变化可能会影响预测性能。为了更好地评估dropout的影响,在Davis数据集上测试了不同的dropout概率§。
结果分析:
当dropout的概率为0.2时,性能是最好的,MSE值较低。太大的dropout概率会导致模型欠拟合,不能有效提取蛋白质特征,而较小的概率不能完全防止过拟合。因此,只有一个适当的dropout概率才能产生最好的预测效果。
结果表明,平均池化在这三个指标上的性能最好。平均池可以通过平均节点维数的节点特征来平衡不同节点的数量;池化结果的平均值足以描述蛋白质和小分子。
结果表明,PSSM在图卷积和DTA预测中起着重要作用。PSSM是通过蛋白质序列比对获得的,其中包含丰富的蛋白质进化信息,利用残基之间的相互作用,最终决定蛋白质的空间结构和特征。PSSM可以快速有效地提取信息,从而提高蛋白质描述的准确性和DTA的预测性能。
与DeepDTA、WideDTA和GraphDTA相比,本文所提出的三层模型有明显的性能改善。所有的预测指标,包括CI、MSE和皮尔逊相关系数,都得到了显著的提升。
在DeepDTA提出的基准测试中,还有另一个度量,rm2。因此,为了对DGraphDTA进行更全面的评估,rm2也被用于更好的评估。下图显示了DGraphDTA等方法预测的rm2结果。
结果分析:在rm2的指标下,DGraphDTA的预测性能优于DeepDTA等方法。因此,DGraphDTA的预测和泛化性能优于其他方法。
不同阈值的对比结果以及评估指标Accuracy的计算:
使用仪器测试出来的接触图与本文使用Pconsc4预测出的图进行DTA预测的性能对比:
本文代码地址: https://github.com/595693085/DGraphDTA.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。