赞
踩
AlphaFold3预测所有分子相互作用准确结构
AlphaFold3
自2021年AlphaFold2问世以来,科研工作者们便开始利用这一蛋白结构预测模型来详细描绘众多蛋白质的结构、探索新药。近日,Google DeepMind公司推出了其最新产品,AlphaFold3模型。该模型不仅能够预测蛋白质结构,还能对核酸、小分子、离子以及化学修饰等和蛋白组成的复合物进行结构预测。
AlphaFold3在各种场景准确性上有巨幅提升,这些场景包括蛋白质-小分子、蛋白质-核酸、以及抗体-抗原相互作用等。这表明,通过单一深度学习框架,完全可以预测所有生物分子相互作用的高精确度结构。DeepMind团队还推出了AlphaFold Server,用户可以免费访问使用。AlphaFold3在生物学界具有革命性的意义,将使得结构生物学的研究变得更加普及。这项研究的成果以《Accurate structure prediction of biomolecular interactions with AlphaFold 3》为题,于2024年5月8日刊登在《Nature》杂志上。
目录索引
背景介绍
模型架构
模型表现
AF3准确度与置信度指标正相关
PairFormer模块
AF3模型局限性
正文内容
背景介绍
准确预测的生物分子复合物结构,对于理解细胞功能和疾病治疗至关重要。AlphaFold2使得蛋白结构预测已经能达到实验精度,基于AF2也迸发出很多算法和进展。
这就引出科学问题:是否能用AI算法准确预测所有生物分子,包括:DNA、RNA、小分子、离子、化学修饰等,的复合物结构。虽然最近也有类似的工作RFAA,但精度还欠佳。
本文作者提出AlphaFold 3(AF3),该模型能够高精度预测各种分子类型,包括PDB数据库中的几乎所有分子类型(下图)。
图1|**a,**DNA和cGMP复合物;b,冠状病毒OC43刺突蛋白;灰色为共晶。
7PNM|一种普通感冒病毒的刺突蛋白(冠状病毒OC43),AlphaFold 3预测结构与共晶结构对比。其中刺突蛋白(蓝色)、抗体(青绿色)和简单糖(黄色),共晶结构为灰色。结构有助于更好地理解冠状病毒,包括COVID-19,为改进治疗提供可能。
7R6R|AlphaFold 3对DNA结合蛋白分子复合物的预测,其中蓝色蛋白质与紫色DNA双螺旋结合,几乎完美地匹配灰色真实结晶结构。
图18AW3 |AlphaFold 3对一个蛋白+RNA修饰分子复合物的预测,其中包含一个蓝色蛋白质、一根紫色RNA链、两个黄色离子,可见与真实灰色结构非常相似。
7BBV|AlphaFold 3对一个酶分子复合体的预测,其中包括一个蓝色酶蛋白,一个黄色离子、和黄色简单糖,以及真实灰色结构。这种酶存在于一种土壤传播的黄萎镰孢菌,会对各种植物造成损害。了解这种酶如何与植物细胞相互作用,有助于研究人员开发更健康、更具抗性的作物。
模型架构
AF3出色的结果是通过改进AlphaFold2架构,然后进行训练实现的。AF3既能输入更多种类的分子数据,也优化了学习效率。这些改进点有:
图1d|AF3的架构。矩形表示处理模块,箭头表示数据流向。黄色:输入数据,蓝色:抽象网络激活,绿色:输出数据。彩色代表分子物理原子坐标。
前面的模版/基因搜索&构象生成细节如下:
第一种是基因搜索(Genetic search),蛋白质链的序列搜索用了2种搜索方法,搜索了5个库(与AF2类似);RNA链在3个数据库(Rfam\RNACentral\Nucleotide collection)上进行搜索。
第二种是模板搜索(Template search),该搜索提供的是模板结构信息(与AF2类似),选择搜索到的前4个模板作为输入。需要注意的是模板搜索仅针对单链的蛋白质进行,不提供多链的模板信息。在预测复合物时,模型不会尝试从相同PDB中选择模板,从而获得有关链间的相互作用信息。
第三种是构象生成(Conformer generation),该功能提供了氨基酸、核苷酸或配体的参考构象(AF3新增)。给定输入的CCD代码(一种用于标识化学组分的简短字符串编码系统)或SMILES字符(一种用来描述分子结构的字符串表示方法),使用RDKit(一种开源的分子信息学工具包)的ETKDGv3方法(一种分子构象生成算法)生成构象。
–摘自《力文所》
AF3 的整体结构(图1d)与AF2的整体结构相呼应,其中一个变化是复合物的成对表示,随后接到结构模块生成原子位置。这些修改的是想适应各种生物分子,以及简化模型架构,且保障修改后性能未下降。AF3的整体流程如下:
算法1|AF3整体框架伪代码
1. 输入信息的嵌入(input embedder)
这里是整体流程算法1的第一步(上图),InputFeatureEmbedder。参考构象异构体ref conformer的生成是由算法5的AtomAttentionEncoder得到。restype + MSA特征(profile,deletion_mean) + 参考构象异构体conformer,concat输出si。输入embedding部分还有相对位置编码,在论文SI方法3.1.2,读者可自行拓展阅读。
算法2|input embedder的示意图部分
算法2|InputFeatureEmbedder伪代码
2. 序列局部原子注意力机制(Sequence-local atom attention)
“序列局部原子注意力”将整个结构表示为原子的列表list,允许所有原子在局部邻域内相互“对话”。例如,每个32个原子的子集关注附近128个原子(在序列编号中领近)。这使网络能够学习到有关局部结构的语义(补充图1),其中每个标准残基仅用单个token表示。
补充图1|序列局部原子注意力机制。蓝色区域描绘了理论上完整的注意力矩阵。黄色矩形代表实现的局部注意力机制。
蛋白存在一些二级结构,如:α-helix,β-sheet等,使用局部注意力机制是合理的,能使得模型学会识别局部二级结构的语义序列。
3. MSA模块
AF3中的MSA模块(补充图2,算法8)每次循环迭代采样MSA随机子集(对应下图中sub Sample),然后将MSA序列和输入特征嵌入input rep得到MSA表示msi(算法8,步骤1-4)。MSA模块由4个重复blocks组成,这些块重复处理和组合pair对表示zij和MSA表示msi。最终输出pair对表示。
MSA模块结构Pairformer模块非常相似,其中MSA表示类似于single单表示的角色。MSA每一行都以相同的方式通过注意力组合信息,这减少了注意力中的计算和内存使用。MSA注意力层采用与其他注意力层相同的门控机制。否则,模型的这一部分与AF2的工作方式相同,这意味着pair对表示通过三角乘法更新triangle update,和三角自注意力层triangle self-attention,以及过渡块传递。在所有转换块transition中,使用SwiGLU激活函数而不是ReLU。
从概念上讲,与AF2区别在于,这里不直接组合MSA不同行的信息,而是所有信息都必须通过pair对表示形式流动。其背后的动机是,pair对表示应包含尽可能多的有关蛋白质或核酸的信息,因为pair对表示构成了网络其余部分的主干。
补充图2|MSA模块示意图
算法8|MSA模块伪代码,zij对表示,msi是MSA表示
4. pair对表示的三角形更新(Triangle updates of the pair representation)
这个pair对表示三角形更新triangle update,是MSA模块的子模块,它与AF2保持一致,在更新/注意力策略方面都一样。
5. 模版模块(Template embedding)
模板嵌入(算法16)将所有原始模板特征组合成一个对表示uij,并将其与前面对表示 zij(在之前的回收迭代中产生)一起处理。这允许网络根据其当前对结构的认识来关注模板中的特定区域。
算法16|模版模块示意图,橙色是搜到的模版,蓝色实线是最开始嵌入embedding得到的pair对表示,蓝色虚线是回收的pair对表示
算法16|模版模块伪代码,最后输出对表示uij
6. Pairformer模块
Pairformer模块(算法17,图2a)与AF2中的Evoformer是类似的作用,区别在于Pairformer使用单表示si,而不是MSA表示。在这里,single单表示扮演的角色类似于 AF2中Evoformer中的特权第一行。
这个变动,使得不再存在列的注意力(column-wise attention)。具有成对偏差的单一注意力(single attention)与AF2中使用的逐行注意力(row-wise attention)相同,仅作用在单个序列。
此外,与AF2不同的是,single单表示不会影响pair对表示,但pair对表示通过偏置注意力逻辑(single attention with pair bias)来控制single单表示中的信息流。所有转换块transition均使用SwiGLU激活函数。输出的pair对表示和single单表示被传递到后续的扩散模块,该模块取代了AF2的结构模块。
图2a|Pairformer模块示意图,输入输出为pair对表示和single单表示,n为标记数量(聚合物残基和原子),c代表channel数量(对表示为128,单表示为384)。48个blocks中每一个都有一组独立的可训练参数。
算法17|Pairformer模块的伪代码,其中zij是pair对表示,sij为single单表示。
7. 扩散模块
扩散模块(图2b)直接在原始原子坐标和粗粒化抽象token表示上运行,无需旋转或任何等变处理。为什么将AF2的结构模块替换为扩散模块,原因有几点:
AF3使用相对标准的扩散模型,来训练扩散模型以“噪声”为输入,然后预测分子的真实原子坐标。扩散模型的优点是可在各种尺度上学习蛋白结构:
作者发现分子的全局旋转和平移不需要不变性或等变性。因此使用扩散模型以简化深度学习架构。扩散模型在训练过程中,是训练一个去噪器(神经网络),以消除以分子骨架的所有重原子位置的高斯噪声。去噪器是基于tranformer,做了些修改如下:
图2b|输入,per-token表示(绿色是inputs表示;蓝色是pair对表示,橙色是single单表示);per-atom condition。输出,彩色球代表物理原子坐标。序列局部注意力机制 (seq.local attention)在前文(补充图1)已介绍。
算法20|扩散模块的伪代码
使用生成扩散模型会带来问题,最大的问题是生成模型容易产生幻觉,模型将非结构化区域也会输出看似合理的结构(如下图右上角结构)。为了解决此问题,作者使用了一种新颖的交叉蒸馏方法,用AF-Multimer v2.3预测结构来丰富训练数据。在这些结构中,非结构化区域通常是长loop,而非紧凑结构。用这种自蒸馏数据“教导”AF3模仿这种行为。这种交叉蒸馏大大减少了AF3的幻觉行为(扩展图1)。
拓展图1|无序区预测。来自AF Multimer v2.3、AF3、没在无序蛋白交叉自蒸馏训练的AF3版本,进行结构预测;蛋白结构按pLDDT着色,蛋白来自CAID2数据集。CAID2 数据集,各种版本AlphaFold的表现。其中RASA是相对可及表面积。
8. 模型置信度模块
为什么要开发迷你推出机制(mini-rollout)?
结构的置信度,AF2是通过对训练期间结构模块的输出误差进行回归来实现的。然而,该方法不适用于AF3的扩散训练,因为扩散的每一步都会用来训练,而不是直接完整的结构输出(图2c)。于是AF3开发了完整结构预测生成的扩散“推出”机制(使用比正常情况更大的步长)。
然后,该预测结构用于置换对称的真值链和配体(permute ground truth),并计算性能指标(Metrics)以训练置信度模块。置信度模块使用pair对表示来预测pLDDT、对齐误差PAE矩阵、以及距离误差矩阵PDE误差。更多置信度模块的细节原理读者请阅读SI方法4。
图2c|训练设置从网络主干(Network trunk)的末端开始。绿色是inputs表示;蓝色是pair对表示,橙色是single单表示。蓝色箭头,抽象激活数组abstract activation arrays;黄色箭头是真实数据;绿色箭头是预测数据。Stop标志,停止梯度运行。训练和infer两个扩散模块共享权重。
图2d显示,在初始训练期间,模型快速学习预测局部结构(所有生物分子LDDT指标快速上升,并在前20k训练步骤内达到最大性能的97%),而模型需要相当长的时间来学习达到全局收敛(LDDT指标缓慢上升)。在AF3开发过程中,作者观察到一些模型也会较早达到顶峰并开始下降;很可能是由于过度拟合有限数量的训练样本,比如下图protein-rna曲线。
图2d|初始训练和微调阶段的训练曲线,十字标记了达到训练最大值97%的点。
怎么解决上面指出的过拟合问题?
拓展图2|初始训练是蓝色曲线,微调阶段1位橙色曲线,绿色曲线是微调阶段2。红色虚线/紫色虚线分别为90%/97%性能时的训练步。
上面内容大致就是AF3的模型框架,相比原文当然还有很多很多细节遗漏不足之处,或者小编理解传达有误的地方,此时恳请读者批评指正或留言。
模型表现
AF3可以从输入氨基酸序列、残基修饰和配体SMILES中预测结构。在图3中,展示了一系列示例,突出了模型推广到众多分子后的能力。在选择这些示例时,考虑了单链相似性和分子界面的新颖性。
图3|AF3的结构预测示例。
a,7663个残基的40S小核糖体亚基蛋白、不透明蓝色的翻译始因子eIF1A和eIF5B、紫色为18S核糖体RNA、不透明紫色的Met-tRNA,复合物置信度LDDT=87.7。
b,糖基化的EXTL3二聚体,与共晶RMSD=1.1Å。
c,间皮素C端肽,与单克隆抗体15B6 结合,DockQ为0.85。
d,临床阶段抑制剂LGK974与带有WNT3A肽的PORCN蛋白结合形成复合物,小分子RMSD=1Å。
e,(5S,6S)-O7-sulfo DADH与AziU3/U2的复合体,与共晶RMSD=1.92Å。
f,NIH-12848类似物与PI5P4Kγ变构位点结合,与共晶RMSD=0.37Å。
1. 蛋白-小分子配体结构预测
AF3还比各种单一任务模型表现出更高的性能(图1c,表1),包括蛋白-小分子、核酸、共价、抗原抗体等各种分子相互作用。
蛋白质-配体结构预测的AF3性能在PoseBusters数据集上进行了160项评估,该数据集由 428个蛋白质-配体结构组成,其中161个在2021年以后加入到PDB。于是在更早的训练集训练了单独的AF3版本(保证无数据泄露)。下图成功率指配体RMSD小于 2Å 的百分比。从下图可见,AF3大大优于基于结构的Vina,以及RFAA模型。
图1c,蛋白-小分子|在PoseBusters数据集上AF3的成功率。纵坐标成功率定义为配体RMSD < 2 Å 的百分比,N表示靶点的数量。
扩展图3 展示了三个示例,其中 AF3 实现了准确的预测,但对接工具 Vina 和 Gold 却不能对接成功。
拓展图3|AF3能够预测Vina/Gold对接失败的分子,灰色是共晶,蓝色是预测蛋白结构,橙色是预测的小分子结构。
为了与RFAA结果进行比较,作者在PoseBusters V1,V2数据集进行了评估,结果展示在拓展图4b-f。
使用多个种子来确保正确的手性,并避免轻微的蛋白质-配体冲突clashing(与强制扩散引导等方法相反),但通常能够产生高质量的合法性小分子结构。
另外,还训练了一个使用“蛋白口袋信息”版本的AF3,其结果在拓展图4a。
拓展图4a|在PoseBusters V1数据集上的对比,不考虑真实结构的AF3算法,比输入holo蛋白蛋白结构的diffdock等模型都更优。右边,口袋版本的AF3模型,也优于Uni-mol V2等模型。
拓展图4b|在PoseBusters V2数据集上的对比,Vina对比AF3
拓展图4|c,在PoseBusters V2数据集,从左到右依次为蛋白的同源性高/中/低,同源性越低,精度会轻微下降。d,AF3在Natural小分子和非Natural小分子上的表现,非Natural小分子成功率会低一些。Natural小分子定义为在PDB数据库出现超过100次。
拓展图4e|在PoseBusters V2数据集上的对比,类似于拓展图4a。
拓展图4f|AF3在每一项PoseBuster的合法性指标上的比例;和DiffDock对比,可以AF3在预测蛋白-小分子结构,合法性大大提高。
2. 蛋白-核酸复合物或RNA单体
AF3够比RoseTTAFold2NA更准确地预测蛋白质-核酸复合物和 RNA 结构(下面的图1c)。我们没有与RFAA比较,因为RFAA精度低于RoseTTAFold2NA。从下图可见,AF3的蛋白-核酸对接成功率远远高于RoseTTAFold2NA算法。
图1c,核酸相关相互作用|PDB数据库中蛋白-RNA,蛋白-双链DNA;CSAP15比赛中RNA单体的成功率。成功率针对复合物是iterface LDDT,单体RNA仅为LDDT。N表示靶点的数量。
还评估了CASP15的10个RNA单体,与RoseTTAFold2NA和AIchemy_RNA2对比,AIchemy_RNA2表现出更加优异的性能(上图c,右边),详细结果在拓展图5a。
拓展图5a|在CSAP 15 RNA数据集上,AF3和RoseTTAFold2NA和AIchemy_RNA2对比,横坐标是10个RNA编号。纵坐标分别为LDDT、TM score、GDT等置信度指标。
AF3没有达到人类专家辅助的 AIchemy_RNA2的性能 (上图)。单独预测核酸DNA/RNA(没有蛋白质)的准确性LDDT的进一步分析显示在扩展图5b中。
扩展图5b|在单独核酸DNA/RNA上评估LDDT,AF3与RoseTTAFold2NA对比。
扩展图5c|蛋白-dsDNA复合物示例,左图以pLDDT绘图,右图以chain绘图。
拓展图d|预测蛋白-核酸结构的PAE误差,不同颜色代表不同链A/B/C。
3. 共价修饰
AF3还可以准确预测共价修饰(键合配体、糖基化、修饰的蛋白残基和核酸碱基)(下图 1c)。修饰包括对任何聚合物残基(蛋白质、RNA或DNA)的修饰。成功率定义为RMSD < 2 Å。
图1c,共价修饰|纵坐标成功率定义为配体RMSD < 2 Å 的百分比,N表示靶点的数量。依次为,蛋白键和小分子、蛋白糖基化、蛋白修饰、DNA/RNA修饰。
扩展图6显示了具有共价修饰的蛋白质、DNA和RNA预测结构的示例,包括分析磷酸化对预测的影响。
拓展图6a|在磷酸化 (SEP、TPO、PTR、NEP、HIP)场景,AF3的预测成功率,PTM代表转录后修饰。
4. 蛋白-蛋白/蛋白单体
在扩展建模能力的同时,AF3相对于 AlphaFold-Multimer v2.3也提高了蛋白质复合物准确度,结果见下图c。抗体蛋白质相互作用预测尤其显示出显着的改善。蛋白质单体 LDDT的改善也有。
图1c,蛋白相关相互作用或单体蛋白|蛋白Multimer、蛋白-抗体、蛋白单体在Recent PDB评估集上的预测成功率。蛋白Multimer、蛋白-抗体的成功率定义为DockQ > 0.23。蛋白单体使用LDDT指标定义成功率。N表示靶点的数量。
AF3对MSA深度的依赖性与AF-M 2.3非常相似;具有浅MSA 的蛋白质的预测精度较低,扩展图7a比较了单链LDDT对MSA深度的依赖性。
拓展图7a|AF3预测的单链LDDT与MSA深度的关系,横坐标的指标Neff与MSA深度正相关。
AF3准确性与置信度指标正相关
在进行模型评估的过程中,特别关注了置信度指标,以判断模型预测的准确性。以下是对实验结果的概述:
置信度指标的评估:使用了模型预测的相互作用界面TM分数(interface predicted TM score,简称ipTM)作为置信度指标。通过将预测得到的ipTM分数进行分箱处理,并统计每个分数区间内的样本数量,我们将其与蛋白质-蛋白质对接的DockQ分数、蛋白质-核酸对接的iLDDT分数以及蛋白质-配体对接的成功率进行了比较。实验结果显示,ipTM分数与这些指标之间存在显著的正相关性(图4a,上半部分),表明ipTM是一个有效的模型预测结果评价指标。
pLDDT指标的相似实验:除了ipTM之外,还对另一个置信度指标pLDDT进行了类似的实验。实验结果同样表明,pLDDT分数与模型预测的准确性之间存在正相关性(图4a,下半部分),从而验证了pLDDT也是一个可靠的模型预测结果评价指标。
综上所述,通过ipTM和pLDDT这两个置信度指标的评估,得出结论:这些指标能够很好地评价模型预测的结果,为模型的准确性提供了有力的证据。
图4a|AlphaFold 3置信度指标与准确性相关。图(a)的上半部分展示了结构准确性(纵坐标DockQ、iLDDT等)与ipTM的关系。图(a)的下多半部分展示了LDDT_to_polymer与chain pLDDT的关系。箱线图的中心线、中心线以及须的边界分别位于(25%, 75%)区间、中位数以及(5%, 95%)区间。N值报告了每个区间内的簇数量。
案例分析:为了进一步验证置信度指标的有效性,选取了“7T82”这一具体案例进行了深入分析。在图4b中,我们展示了pLDDT分数的分布情况,观察到不确定性主要集中在蛋白质链的末端。图4c则按照蛋白质链进行了着色,其中颜色与图4d-e中展示的蛋白质四条链(A、C、D、F)相对应。通过对比,发现相互作用界面的DockQ分数与模型预测的PAE(蛋白质-氨基酸-能量)矩阵之间存在一致性,这进一步证实了模型预测的可靠性。
图4b-e|b,预测的PDB ID 7T82结构按pLDDT分数着色。c,相同预测按链着色。d,蛋白质-蛋白质界面的DockQ分数。e,相同预测的预测对齐误差PAE矩阵(颜色越深表示置信度越高)。
扩展数据图 8,对键合配体(bonded ligand)和其他界面的进行了类似评估。
拓展图8|蛋白质与离子、键合配体和键合糖链相互作用的置信度与准确性之间的关系。准确性以不同口袋对齐RMSD阈值下界面簇的百分比来表示,作为界面链对ipTM的函数。离子组包括金属和非金属。N值报告了每个区间内的簇数量。对于一般配体-蛋白质界面的类似分析,请参见正文中的图4。
AF3模型局限性
AlphaFold3,尽管在蛋白质结构预测领域取得了显著的成就,但它仍然面临着一些挑战和局限性,这些挑战体现了所谓的“没有免费午餐定理”,即没有任何单一的方法能够在所有情况下都表现最佳。以下是对AlphaFold3局限性的概述:
尽管存在这些挑战,AlphaFold3仍然是蛋白质结构预测领域的一个重要工具,它的进步为未来的研究和应用奠定了基础。然而,为了克服这些局限性,研究人员可能需要开发新的算法或改进现有方法,以实现更精确和全面的结构预测。
图5a|抗体预测质量与模型种子数量的关系,抗体-抗原界面预测的质量随着模型种子数量的增加而提高。图中的数据点展示了在1200个种子中随机抽取1000个种子的平均值(有放回抽样)。
图5b|立体化学预测错误
图5c|构象覆盖的限制,左边蓝色预测结构都处于封闭状态;右边虚线表示N端Lon蛋白酶样结构域和C端thalidomide结合域之间的距离
图5d|未解决残基的核孔复合体
图5e|三核小体的错误预测
代码文献
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。