赞
踩
分子性质预测可以指导药物开发过程中的分子设计和优化。由于分子本质上是图结构数据,图学习大大提高了分子性质预测任务。然而,许多现有的基于图的方法是为同构图中的低阶节点交互而设计的,忽略了不同类型的原子节点或边。在本文中,我们建议将一个分子建模为一个异构图,并利用元路径来捕捉化学官能团的潜在特征。为了保留元路径揭示的化学环境,我们构建了基于元路径的连通性,并根据关系类型将异构图分解为子图。此外,还设计了分层关注策略,在节点级和关系级对异构信息进行聚合。因此,我们的方法更自然,更适合于学习原子节点之间复杂的相互作用和有效的分子指纹。我们在公共分子数据集上评估了我们的模型,实验结果表明我们的模型与现有方法相比具有竞争力。
药物研发是一个耗时、复杂和昂贵的过程。在药物发现管道中,分子性质预测是自动筛选具有理想性质的靶标药物的基本任务之一[1]。随着深度学习的发展,分子表示学习比基于特征的方法显示出灵活性和有效性,并在分子性质预测任务中得到越来越多的关注,如分子分类[2,3]、分子性质回归[4,5,1]和分子生成[6]。
早些年,一些研究使用SMILES (Simplified Molecular Input Line Entry System,简化分子输入行输入系统)[3],这是一种类似顺序文本的表示,用于输入rnn (Recurrent Neural Networks,循环神经网络)或cnn (Convolutional Neural Networks,卷积神经网络)。然而,这种一维序列数据部分丢失了分子的拓扑信息,导致性能受限。
随着最近图学习方法的成功[7-9],解决这一任务的基于图的模型得到了越来越多的关注。把原子当作节点,把化学键当作边,可以很自然地把分子建模成一个图。因此,我们可以使用图神经网络(gnn)来学习分子指纹。gnn是基于灵活的消息传递层构建的,其中每个嵌入的节点聚合来自相邻节点的消息[10]。因此,可以从原子级消息传播的角度来学习分子的特征表示。
然而,大多数现有的基于gnn的方法[1]只考虑同质图中相邻原子的相互作用,其中节点类型表示和边缘类型表示由线性层投影,并且仅由来自最近节点的消息交互更新,忽略了来自不同化学官能团的复杂异构原子之间的高阶相互作用。因此,一个问题是如何为这种相互作用建模。我们的答案是异构信息网络上的元路径[11]。与同质图相比,异构信息网络(HINs)[12]由于具有学习多种节点类型和关系类型的灵活能力,因此更适合于分子建模。
异构信息网络(或异构图)包含多种类型的节点或关系,被广泛用于挖掘复杂的语义信息[12]。因此,使用HIN对分子进行建模将允许基于图的模型更多地了解原子之间的相互作用。
近年来,人们提出了各种异构图神经网络(hgnn)[13,14]来学习HINs的低维表示。学习到的表示保留了异构信息,可以进一步用于下游任务,如节点分类和链路预测。
在异构图学习方法中,元路径是捕获HINs结构和语义特征的经典方法。元路径(meta - path)[11,15]是HIN任务中的一种强大工具,型和它可以用来描述对象之间更复杂的关系。元路径是有序描述节点类边缘类型的复合关系序列[15]。以图1为例,“O=C-C”是氧原子与氮原子之间的一条过渡路径。元路径描述了沿着路径的原子之间的化学相互作用,可以被认为是更高层次的关系。因此,这些元路径可以揭示HIN中更全面的路径结构。化学官能团通常决定分子的物理化学性质。如图1所示的脯氨酸,我们可以通过五个元通路连接来表达훼氨基酸中氨基酸与羧酸之间的化学相互作用。在这个HIN中,每个元路径都有不同的语义含义。
图1所示。脯氨酸是有机生命的天然氨基酸之一。这五种元路径增强了α氨基酸结构的连通性,有利于gnn的信息传递,从而导致更具表现力的分子图学习。
基于上述观察,我们将每个分子建模为HIN,以更好地利用不同官能团之间长交叉原子相互作用之间的丰富相互作用。我们提出了一种基于分子的元路径融合异构图网络(MPMol)用于性质回归。通过构建基于元路径的连接,我们的模型可以捕获原子节点之间的各种复合相互作用,这有助于学习分子指纹以进行属性回归。我们构建基于元路径的连接来捕获和保存化学结构。此外,我们设计了一种分层关注策略,在邻域级和关系级聚合特征信息。具体来说,我们首先根据关系的类型将异构图分解成不同的关系子图。在每个同构子图中,通过聚合相邻节点的特征,利用邻域关注为每个节点生成隐藏嵌入。然后我们利用关系注意来了解不同关系类型的影响。我们工作的主要贡献可以概括如下:
•我们提出利用元路径来模拟复杂分子官能团之间的大跨度节点相互作用,并设计一个分子学习模型MPMol来预测分子性质。
•为了对分子图中的元路径进行建模,我们设计了一种分层注意机制,构建异构GNN来学习分子图的结构信息,其中注意机制在节点级和关系级学习重要性。
•MPMol已在多个公共基准数据集上进行了评估,并取得了具有竞争力的性能。
图神经网络(gnn)。gnn是应用于图结构数据的深度学习模型,以端到端方式执行各种与图相关的任务[16]。它具有广泛的应用,包括链接预测、节点分类/聚类和图回归/分类[7,17 - 19]。gnn学习低维节点表示,因此下游预测模型可以用于图。Kipf等[20]基于谱图理论提出了一种简化的半监督学习任务图卷积。它是一种转换学习方法,其输入限制为固定大小的图。从基于空间的角度来看,GraphSAGE[10]被设计为一种归纳嵌入方法,将卷积过程视为连接节点之间的特征传播。MPNN[21]概述了空间gnn的一般框架,其中提出了两阶段消息传递算法:聚合来自邻居节点的消息并读取目标节点嵌入。通过堆叠图卷积层,可以根据图拓扑传播节点特征信息。GAT[22]通过引入注意机制来学习相邻节点的权值,实现了空间图卷积。GGNN[23]但它是一种门机构,适用于顺序输出。在过去的几年里,越来越多的gnn被提出用于不同的改进,如Cluster-GCN[24]和deepgcn[25]。
用于药物发现的gnn。在传统方法中,分子被表示为非几何数据[26],这对于学习拓扑结构和属性信息具有有限的表达能力。随着gnn在各种任务中表现出良好的性能,越来越多的研究者致力于在分子上使用图卷积模型[1]。Duvenaud等人[27]引入了一种可微神经网络,其输入是表示原始分子的图,这是对分子图卷积的首次尝试之一。
由于快速推理、良好生成和可扩展性,gnn有望改变药物发现。MPNN[21]将分子作为图形,并探讨了预测量子力学性质的消息传递机制。由于原子坐标信息对量子力学性质很重要,因此考虑原子间的空间和距离信息。[28]将排序池引入到gnn中,提出DGCNN进行图分类。PNA[29]在图卷积层上设计主邻域聚集。dimension[2]是指定向消息传递,它嵌入了在原子之间而不是原子本身之间传递的消息。[30]将关系池作为排列不变层引入到gnn中用于图表示。graphhormer[31]研究了transformer的直接应用,并提出了对图表示的中心性编码、空间编码和边缘编码。
近年来,为了提高GNN在分子上的性能,提出了一些利用高阶路径学习节点间相互作用的方法。与高阶消息传递相结合,k- gnn[32]可用于确定高阶属性。路径MPNN[33]使用固定长度的高阶路径来表示分子几何形状。SA-GAT[34]在图分类任务上聚合高阶邻居的特征。[35]他使用网络架构搜索方法访问更好的图分类网络,并在OGB排行榜上取得了top-1的成绩[36]。DIR[37]是将图分解成子图并使用编码表示的方法,可以在图分类任务中实现。FLAG[38]是一种有效的针对图数据的对抗训练,可以用于图分类任务。GSAT[39]提出利用随机注意机制为图学习任务选择与任务相关的子图。
为了更好地学习节点和边的异构性,DL-MPNN[40]通过计算键长和键角来计算无局部聚集的单原子特征。此外,MolHGT[41]提出了异构图转换器消息传递和VNT读出函数来模拟多类型节点和边的异构性。
异构图挖掘。异构信息网络包含多种类型的节点或多种类型的关系。异构图嵌入已经成为各种应用中复杂结构信息建模的有力工具[42,8,9,43]。HG嵌入的一种流行方法[12]是使用元路径[11]来捕获具有丰富语义的有用的高阶关系结构。Metapath2vec[15]提出了生成由元路径引导的随机游动,并通过skip-gram模型生成节点嵌入。通过本研究,许多方法在HG嵌入中采用了元路径。MAGNN[14]在每个元路径实例上进行元路径内和元路径间的聚合。
与基于元路径的方法类似,图转换网络(Graph Transformer Network, GTN)[44]旨在自动学习新的图结构,并以端到端的方式在新图上生成节点嵌入。PGRA[42]提出了一种特定于关系的投影,并将注意力机制应用于关系-特征聚合。
然而,现有的异构图网络主要集中在社交网络或引文网络上进行预测,进行节点分类、节点聚类和链接预测任务,而不是图级任务。
定义1(异构图(HG))HG也被称为异构信息网络(HIN)[12]。HG被定义为G=(V,E)节点类型映射函数$∶V→v和关系类型映射函数&∶E→R。V是节点集,E是边集。原子表示为节点v∈V。R表示边类型集。v表示一组节点类型。边e∈E表示两个原子节点之间的化学键。
定义2(元路径[11])。给定一个HG, 元路径푝∈被定义为一种路径模式一种顺序푣1휑(푒1、2)⟶푣2휑(푒2、3)⟶⋯휑(푒푛,푛+ 1)⟶푣푛+ 1,揭示了由物体沿路径之间的关系。휑(푒푖,푗)表示连接节点푣푖和푣푗的边푒푖、푗的关系类型。
例子。如图1所示,有五个元路径表示氨基酸的官能团。以“O=C-C”为例,它揭示了一种由氨基酸部分的羰基组成的复合结构。氧节点和碳节点被认为是转移邻近节点。它们虽不直接联系,但关系密切,在共同决定图的性质中起着重要作用。图1中的虚线表示在功能群级别对应的元路径连接。
图1所示。脯氨酸是有机生命的天然氨基酸之一。这五种元路径增强了α氨基酸结构的连通性,有利于gnn的信息传递,从而导致更具表现力的分子图学习。
在本节中,我们将每个分子建模为一个异构图,并描述我们用于图嵌入的元路径融合方法。我们的模型架构包含五个部分,如图2所示。我们提出了1)元路径连接构建和2),3)分层注意策略。4)和5)已经被证明对分子图学习是有效的[21],因此我们遵循这些架构。
图2所示。MPMol的原理图。该体系结构由五个部分组成。1)我们首先在一个分子图上精心选择的元路径语料库内构建元路径连接。2)将分子的邻接矩阵输入邻居注意模块,通过注意消息传递攻击获得主节点表示。3)将节点表示输入到关系关注模块中,得到最终的节点表示。4)节点表示通过GRU层递归,增强学习表现力。5)最后,通过读出函数将这些节点表示简化为图级表示,并将其输入分类或回归解码器以获得预测分数。
接下来,我们在这里简单地介绍提出的框架,并在以下各节中详细说明每个模块。首先,我们基于预定义的元路径模板语料库构建元路径连接。其次,根据关系类型将异构图转换成不同的同质子图。我们利用每个子图上的邻居关注来学习中心节点的邻居节点的关注系数。请注意,在分子中,尽管节点类型不同,但节点具有相同数量的原子属性。因此,它们的初始向量具有相同的特征维数。然后,节点嵌入将通过来自相邻节点的消息的细心聚合来更新。第三,在所有子图上应用关系注意来学习所有关系类型的权重系数。然后根据关系关注系数对隐藏嵌入进行加权和来更新节点表示。接下来,我们将节点潜在表示馈送到GRU层以循环增强学习。最后,通过分类或回归解码器将节点表示简化为图级向量进行预测。
化学官能团是构成有机分子的基本基团,通常主导着分子性质[45]。我们建议通过构建基于元路径的连接来利用这些化学结构。与之前的工作[15,46]类似,我们将一些元路径定义为模板语料库。为了定义元路径,我们在分子数据集QM9和ZINC中使用截断宽度优先路径搜索(截断宽度优先路径搜索)算法来收集原始元路径。如表1所示,我们可以从由可计数的官能团组成的分子中得到有意义的、多样的元路径。有趣的是,我们发现分子数的增加并不会导致元路径的显著增加,如图3所示。这意味着我们可以访问的元路径数量很少,确保元路径数量不会爆炸。因此,选择过程不花费太多的专家劳动力。所选的元路径语料库见表7。然后,我们对每个图中的每个预定义元路径模板执行算法1中提出的图遍历算法,以获得所有元路径实例。每个实例是由图的节点和关系组成的序列,与相应的元路径模板匹配。对于某个元路径模板p∈M,在一个图中可能存在多个对应的实例。为了使同一元路径实例中的节点紧密关联,我们通过连接每个实例中的源节点和目标节点来构造元路径连接边。如图2所示,基于元路径的边(虚线边)p可以被视为连接相邻节点vi和vj的子图级别的附加边。
通过构建基于元路径的连接,丰富和加强了元路径实例上节点之间的关联。组功能组包含的原子可以相互传递消息,即使它们在原始图中相距遥远。此外,通过将元路径连接作为额外的关系类型,我们可以在消息传播期间考虑复合路径结构。
相邻节点通常对其中心节点有不同的影响。在这里,我们采用自关注策略来学习相邻节点的不同权重。根据化学知识,官能团通常主导分子性质[45]。在一个官能团中,有不同原子类型的节点,这些节点对官能团的性质有不同的重要性。因此,邻域关注的目标是在每个功能群子图中传递和聚集特征。
首先,我们根据关系类型将整个图分解为不同的关系子图。每个关系子图只包含一种关系类型。然后我们在每个子图上利用独立的自关注图卷积来更新原子级别的节点嵌入。自关注运算学习邻近节点对中心节点的影响权重。将学习到的权重与节点特征向量(如乘法)相结合,生成邻域消息。具体来说,给定一个由化学键或元路径r∈Rbond∪RM连接的原子对(vi,vj),节点特征向量首先通过具有可学习权值Wr的项目函数转换为高维隐藏嵌入。为了学习节点与其邻居之间的相关性,我们将每个邻居的转换表示连接起来,随后得到一个聚合的特征向量mi←j。我们通过在每个聚合特征向量上乘以一个注意力向量来实现邻域注意力策略。输出为每个相邻节点的重要性得分ui←j。它说明了在关系类型r下,邻居节点vj对节点vi的影响。接下来,我们对邻域节点的重要性分数使用softmax函数,得到它们对应的影响系数ai←j。设hi∈Rd为vi的向量表示。节点邻居的注意权值的计算可以表示为如下所示
其中퐱푖为原始离散特征。根据前面的工作[36],퐡푖由一个线性层初始化,该线性层将离散特征向量投影为连续向量。퐞푖푗为原始边缘特征,并将其变换重塑为퐖푟。푟∈푏표푛푑∪,푣푗∈푖,和푖表示的邻近节点푣푖。퐖∈∈퐹×푑是一个权重矩阵,它将连接的隐藏嵌入投影到一个重要分数휇푖←푗中。;表示连接操作。尽管分子图是无向的,但我们认为消息是从邻近节点传播到中心节点的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。