赞
踩
ML中的归纳偏差(inductive bias)是描述模型如何进行预测的一组假设。不同的基于ML的蛋白质-配体结合亲和力预测方法(PLA)具有不同的归纳偏差,并导致不同程度的泛化能力和可解释性。直观地说,基于ML的PLA模型的归纳偏差应该与与结合相关的生物学机制相适应,以获得有意义的预测。为此,作者提出了一种基于相互作用的归纳偏差,将神经网络限制为与化学意义的结合相关,并有两个假设:
基于相互作用的inductive bias通过一个可解释的异构相互作用图神经网络EHIGN来体现,用于显式建模原子-原子的配对相互作用,从而从3D结构中预测PLA。大量的实验表明,EHIGN在PLA预测和基于结构的虚拟筛选(SBVS)方面比其他最先进的基于ML的baseline具有更好的泛化能力。更重要的是,对距离亲和关系、姿态亲和关系和子结构亲和关系的综合分析表明,基于相互作用的归纳偏差可以指导模型学习与物理现实一致的原子相互作用。作为一个实用性的研究,EHIGN被用于预测Nirmatrelvir对SARS-CoV-2变体的疗效。EHIGN成功识别了Nirmatrelvir对不同SARS-CoV-2变体疗效的变化。
来自:Interaction-Based Inductive Bias in Graph Neural Networks: Enhancing Protein-Ligand Binding Affinity Predictions from 3D Structures
预测PLA仍然是计算化学的困难挑战之一[1]。该领域的快速发展可以通过更有效地识别潜在药物直接促进药物发现。虽然基于物理的方法,如分子动力学和量子力学,可以非常准确地预测PLA[2],但它们的大量计算需求阻碍了高通量筛选的应用。另一方面,分子对接由于其可管理的计算成本,已广泛应用于大规模基于结构的虚拟筛选(SBVS)[3]。然而,由于减少计算需求的权衡,分子对接的准确性不可避免地受到损害。
由于越来越多的高质量、实验确定的蛋白质配体结构及其相应的结合亲和力数据增长,现在可以采用数据驱动的方法来预测PLA。用于预测PLA的ML方法可分为两类:无相互作用和基于相互作用的方法。这种分类基于这些方法是否利用原子相互作用和3D结构,如图1所示。
无相互作用方法[6][10][11]隐含地假设ML模型可以从不显示物理上有意义的蛋白质-配体相互作用的数据中学习。因此,配体通常由其扩展连接指纹ECFP、SMILES序列或2D graph来表示,而蛋白质则由序列来描述。为了简单起见,有意省略了原子交互。对于这类模型,可以通过识别数据中与结合亲和力相关但可能缺乏直接生化相关性的模式来实现良好的预测,这种模式被称为非因果偏差(有相关性但没有因果关系)[12]。
另一方面,基于相互作用的模型[21][22][23]考虑了原子相互作用和3D结构,将蛋白质-配体复合物表示为3D相互作用graph或3D grids。这些模型的归纳偏差,无论是显性的还是隐性的,都与蛋白质和配体之间的物理相互作用密切相关。在基于相互作用的模型中,最常用的是3D-CNNs[15]和交互图神经网络IGNNs[13]。值得注意的是,最近的研究表明,IGNNs在预测性能和计算效率方面都超过了3D-CNN[17]。
虽然IGNNs在PLA预测中显示出相当大的潜力,但由于泛化能力和可解释性不足,其实际应用仍然受到限制[1]。当前基于IGNNs的模型存在三个关键挑战:
为了克服这些挑战,作者提出了基于交互的归纳偏差,并提出了两个关键假设:
这种基于interaction的归纳偏差有两个优点:首先,它通过强制基于交互的规则将神经网络限制为与binding相关的功能,进而确保模型可以推广到显示类似物理交互的未见过的数据。因此,这种归纳偏差有助于学习符合物理现实的原子相互作用,增强模型的泛化和可解释性。EHIGN有如下贡献:
使用不同类型的符号来区分各种数学对象:小写斜体字母,例如 v v v表示标量和元素,小写黑体字母,例如 h \textbf{h} h表示特征向量,大写黑体字母,例如 W \textbf{W} W表示矩阵,大写字母,例如 G G G表示集合,斜体字母,例如 f ( ⋅ ) f(·) f(⋅)用于表示函数。
在这项工作中,复合物被表示为具有两种节点和四种边的异构图,如图2c所示。配体和蛋白质原子分别作为异构图的配体节点和蛋白质节点,而配体分子内、蛋白质分子内、配体-蛋白质分子间和蛋白质-配体分子间相互作用构成异构图的四种边。异构图被定义为 G = ( V , E ) G=(V,E) G=(V,E),节点映射函数 τ : V → A \tau:V\rightarrow A τ:V→A,边映射函数 ϕ : E → R \phi:E\rightarrow R ϕ:E→R,其中, A A A和 R R R代表预定义的节点类型和边类型,每个节点 v ∈ V v\in V v∈V属于特定节点类型 τ ( v ) ∈ A \tau(v)\in A τ(v)∈A,每个边 e ∈ E e\in E e∈E属于特定节点类型 ϕ ( e ) ∈ R \phi(e)\in R ϕ(e)∈R。在当前应用中,定义 A A A和 R R R为 A = { l , p } A=\left\{l,p\right\} A={ l,p}, R = { ( l , l ) , ( p , p ) , ( l , p ) , ( p , l ) } R=\left\{(l,l),(p,p),(l,p),(p,l)\right\} R={ (l,l),(p,p),(l,p),(p,l)},其中 l l l和 p p p分别是配体和蛋白质原子。对于非共价相互作用,两个节点的空间距离小于5A则可以连接非共价相互作用边。每个节点和边还携带自己的初始特征向量 x i ∈ R n \textbf{x}_{i}\in\mathbb{R}^{n} xi∈Rn和 x i j ∈ R n \textbf{x}_{ij}\in\mathbb{R}^{n} xij∈Rn,特征向量由原子特性,边特性来初始化。其次,空间信息(欧氏距离)被编码到 x i j \textbf{x}_{ij} xij中,使得EHIGN可以通过消息传递学习3D信息。
GNN模型利用节点/边特征信息和图结构来学习每个节点 v i ∈ V v_i∈V vi∈V的表示向量 h i \textbf{h}_i hi。具体来说,GNN模型使用消息传递函数,通过聚合来自相邻节点和边缘的消息来迭代更新节点的表示,按照: m i ( t + 1 ) = g ϕ ( t ) ( h i ( t ) , ∑ v j ∈ N ( v i ) f θ ( t ) (
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。