赞
踩
蛋白质结构预测的目的是根据蛋白质的氨基酸序列来确定蛋白质的三维形状。这个问题对生物学来说至关重要,因为蛋白质的结构在很大程度上决定了它的功能,但很难通过实验来确定。近年来,利用遗传信息已经取得了相当大的进展:分析同源序列的共变异(co-variation of homologous sequences)可以推断哪些氨基酸残基(amino acid residues)是接触的,这反过来又有助于结构预测。在这项工作中,我们展示了我们可以训练神经网络来精确预测蛋白质中残基对(pairs of residues in a protein)之间的距离,这比接触预测更能传达结构信息。利用这些信息,我们构造了一个能准确描述蛋白质形状的平均力(mean force)的可能性。我们发现,由此产生的潜力可以优化一个简单的梯度下降算法,实现结构,而不需要复杂的采样程序由此产生的系统,命名为AlphaFold,已经被证明可以达到很高的精度,甚至对于同源序列相对较少的序列(sequences with relatively few homologous sequences)。在最近对蛋白质结构预测(CASP13)的关键评估中,对蛋白质结构预测领域的状态进行盲评估,AlphaFold为43个自由建模域中的24个创建了高精度结构(TM得分†为0.7或更高),而下一个最佳方法,通过抽样和联系方式,在43个领域中,只有14个领域达到了这样的准确率。AlphaFold代表了蛋白质结构预测的一个重要进展。我们期望对蛋白质结构预测的准确性的提高能够帮助理解这些蛋白质的功能和故障,特别是在没有实验确定同源蛋白质(homologous proteins)的情况下。(†模板建模得分,介于0和1之间,衡量拟建结构的整体(主干)形状与本地结构的匹配程度。)
蛋白质是大多数生物过程的核心。由于蛋白质的功能依赖于它的结构,了解蛋白质的结构一直是生物学上的一个巨大挑战。虽然已经开发了几种实验结构测定技术并提高了精确度,但它们仍然困难且耗时。因此,几十年的理论工作试图从氨基酸序列预测蛋白质结构。
Fig1:AlphaFold在CASP13评估中的表现。(a) AlphaFold和其他97组预测到给定TM分数阈值的自由建模(FM+FM/TBM)域数。(b)对于CASP13评估员确定的6个新褶皱,AlphaFold的TM评分与其他组比较,具有原生结构。T1017s2-D1结构不可公开。(c)CASP13中最可能的L、L/2或L/5接触的远程接触预测精度,其中L是域的长度。将CASP13中AlphaFold(AF)使用的距离分布(以接触预测为阈值)与CASP13中两种排名最佳的接触预测方法:498(RaptorX-Contact)和032(TripletRes)在“所有组”目标(不包括T0999)上的提交进行了比较。
casp是一个两年一次的蛋白质结构预测盲评估,由结构预测界运行,以衡量准确性的进展。2018年,AlphaFold加入了来自世界各地的97个团体,加入了CASP13。每组提交最多5个结构预测为84个每个蛋白质序列,其实验确定的结构是被隔离的。评估人员将蛋白质分为104个域进行评分,并将每个域分类为适合基于模板的建模(TBM,其中具有相似序列的蛋白质具有已知结构,并且根据序列差异修改同源结构)或需要自由建模(FM,当没有同源结构可用时),具有中间(FM/TBM)类别。图1a显示AlphaFold在性能上比其他参赛者更突出,预测的FM域比任何其他系统都高,特别是在0.6–0.7 TM分数范围内。评估人员根据结构的总z分数对98个参与组进行排名,并按类别进行划分。AlphaFold在FM分类中的z总分为52.8分(best-of-5),而在下一个最接近的组(322分)中的z总分为36.6分。结合FM和TBM/FM分类,AlphaFold得分为68.3比48.2。AlphaFold能够高精度预测先前未知的褶皱,如图1b所示。尽管只使用自由建模技术,不使用模板,但根据评估员的公式0-capped z分数,AlphaFold在TBM类别中的得分也很高,在top1模型中排名第四,或在best-of -5模型中排名第一。AlphaFold的准确性很大程度上取决于距离预测的准确性,这从表1c中接触预测的高精度中可以看出。
迄今为止最成功的自由建模方法依赖于片段组装来确定感兴趣的蛋白质的形状。在这些方法中,通过随机抽样过程(例如模拟退火)创建结构,该过程最小化从蛋白质数据库(PDB )中的结构中提取的汇总统计得出的势能函数。在碎片组装中,结构假设被反复修改,通常是通过改变一小段的形状,保留能够降低势能的变动,最终导致低势能结构。模拟退火需要数千次这样的移动,并且必须重复多次才能很好地覆盖低势能结构。
近年来,通过使用在一组相关序列中发现的进化协变量数据,结构预测的准确性得到了提高。通过搜索从DNA测序得到的蛋白质序列的大数据集,找到与目标序列相似的序列,并与目标序列进行多重序列比对(MSA)。MSA序列中两个氨基酸残基位置的相关变化可用于推断哪些残基可能接触。当两个残基的β-碳原子彼此在8Ångström范围内时,通常定义为发生接触。基于MSAs(包括神经网络)计算的特征,已经使用了几种方法来预测一对残基接触的概率。通过修改统计势将接触预测并入结构预测中,以将折叠过程引导到满足更多预测接触的结构。以前的工作预测了残基之间的距离,特别是距离几何方法。没有协变量特征的神经网络距离预测被用来制作EPAD势,EPAD势用于结构假设的排序,而QUARK pipeline使用基于模板的距离轮廓约束来对模板进行建模。
在这项工作中,我们提出了一种新的、深入学习的蛋白质结构预测方法,其阶段如图2a所示。我们表明,通过训练神经网络(图2b),可以构建一个学习的、蛋白质特异性的势能函数,从而对给定序列的蛋白质结构进行准确预测,并通过梯度下降最小化势能来准确预测结构本身(图2c)。神经网络预测包括主干扭转角和残基间的成对距离。距离预测提供了比接触预测更具体的结构信息,为神经网络提供了更丰富的训练信号。预测距离,而不是像大多数以前的工作中那样预测接触,模拟了详细的交互,而不是简单的二元决策。通过联合预测多个距离,该网络可以将有关协变量、局部结构和残基特征的距离信息传播到附近的残基。预测的概率分布可以结合起来形成一个简单的,原则性的蛋白质特异性势能。我们表明,梯度下降,很容易找到一组扭转角,来最小化这种蛋白质特定的势能函数,而只使用有限的抽样次数。我们还表明,整个链可以一起优化,避免了将长蛋白分割成独立建模的假设域的需要。
Fig2. CASP13靶T0986s2的折叠过程。(长度L=155)(a)结构预测步骤。(b) 神经网络根据MSA特征预测整个L×L分布图,对64×64个残基区域进行单独预测。(c) 图中显示了一次梯度下降迭代(1200步),TM分数和RMSD与步数成反比,并绘制了结构的五个快照。二级结构(来自SST 30)也被显示(蓝色的螺旋线,红色的股线)以及本机二级结构(SS),网络的二级结构预测概率和扭转角预测的不确定性(von Mises分布的κ-1来拟合φ和ψ的预测)。当梯度下降的每一步贪婪地降低势能时,大的整体构象变化会受到影响,从而形成一个很好的堆积链。(d) 显示覆盖在本机结构上的最终首次提交(灰色)。(e) 显示最低势能结构相对于梯度下降重复次数(对数标度)的平均TM分数(整个测试集,n=377)。
AlphaFold的核心部分是一个卷积神经网络,它是在PDB结构上训练的,用来预测蛋白质残基的成对Cβ原子ij之间的距离dij。基于蛋白质氨基酸序列的表示和来自序列MSA的特征,该网络在结构上类似于用于图像识别任务的网络,预测64×64残基区域中每个ij对的离散概率分布P(dij | s,MSA(s)),如图2b所示距离分布预测是通过对重叠区域的平均预测来构建的,称为距离图(来自距离直方图)。图3显示了一个CASP蛋白T0955的距离图预测示例。分布模式(图3c)与真实距离(图3b)非常接近。图3c显示了一个残基(29)的所有距离的示例分布。网络如何预测距离的进一步分析如方法图14所示。
为了实现符合距离预测的结构,我们通过将样条曲线拟合到负对数概率来构造平滑的势能Vdistance,求所有剩余对的和。我们通过所有残基的骨架扭转角(φ,ψ)来参数化蛋白质结构,并建立蛋白质几何结构x=G(φ,ψ)的可微模型来计算Cβ坐标x,从而计算每个结构的残基间距离dij=||xi−xj||,以及将V距离表示为φ和ψ的函数。对于一个含有L残基的蛋白质,这个势能从边缘分布预测中累积了L^2项。为了纠正先验知识的过度表达,我们从对数域的距离势中减去参考分布。参考分布建立了与蛋白质序列无关的距离分布P(dij |length)模型,并通过在相同结构上训练一个小版本的距离预测神经网络来计算,没有序列或MSA输入特征。通过训练接触预测网络的一个独立输出头来预测主干扭转角P(φi,ψi | S,MSA(S))的离散概率分布。在P拟合von Mises分布后,这用于向势能函数中添加平滑扭转建模项,Vtorsioin=−log P vonMises(φi,ψi | S,MSA(S))。最后,为了防止空间冲突,我们将Rosetta的V-score2smooth加到势函数中,因为这包含了范德华项。我们对势函数中的三个项都使用了乘法权重,但没有一个权重明显优于相等权重。
图3 |预测距离分布与真实距离的比较。以上,对于CASP靶点T0955(L=41):(a)native结构,显示与残基Cβ的距离小于8Å29。(b) native残基间距离和(c)距离预测的模式,突出显示残基29。(d) 残基29到所有其他剩余距离的预测概率分布。与native距离相对应的bin以红色突出显示,8Å画成黑色。真的触点分布以绿色绘制,非触点分布以蓝色绘制。下面,对于CASP目标T0990(L=552):(e)根据距离≤22Å的所有剩余对的真实距离绘制的预测距离模式,不包括标准偏差>3.5Å的分布。蓝色误差条显示了为1Åbins计算的平均值和标准偏差。(f) 模式距离预测的误差与距离分布的标准偏差,不包括native距离>22Å的对。平均值和标准偏差显示为0.25Åbin。距离图如方法中的图7所示。
由于组合势V total(φ,ψ)中的所有项都是(φ,ψ)的可微函数,因此可以通过梯度下降对这些变量进行优化。这里我们使用L-BFGS 33。通过从P(φi,ψi | S,MSA(S))中取样扭转值来初始化结构。图2c说明了一个使潜力最小化的单一梯度下降轨迹,显示了这种贪婪的优化过程如何导致提高精度和大规模构象变化。次要结构部分由初始化设置,由于二级结构的某些区域预测准确,导致低方差扭角分布。总体精度(TM分数)提高很快,经过几百步的梯度下降已经收敛到局部最优。
我们从采样的初始化中重复优化,得到一个低电位结构池,从中进一步采样结构初始化,增加主干扭转噪声(“噪声重启”),导致更多结构被添加到池中。经过几百个周期的优化收敛,选择最低势能结构作为最佳候选结构。图2e显示了在梯度下降过程的多次重新启动过程中,最佳评分结构的精确度的进步,表明经过几次迭代后,优化已经收敛。与继续从预测的扭转分布(在我们的测试集中平均值为0.641对0.636)取样相比,噪声重启使得TM分数结构被发现略高。
AlphaFold整体准确度的一个关键组成部分是,准确的距离预测比接触预测传达更多关于结构的信息。图3e显示距离的预测与真实距离有很好的相关性。从图3f可以看出,网络也在模拟其预测中的不确定性。当预测分布的标准差较低时,预测更准确。这在图3d的预测分布中也很明显,其中距离分布的更可靠预测(分布的更高峰值和更低标准偏差)往往更准确,真实距离接近峰值。更广泛的、不太可靠的预测分布仍然将概率分配给正确的值,即使它不接近峰值。距离预测和接触预测的高精度(表1c)来自神经网络设计及其训练中的多种因素的组合,包括预测距离而不是接触、数据增强、特征表示、辅助损失、裁剪和数据整理。(参见方法部分。)
图4a显示了距离图精度(由方法中定义的距离图lDDT测量)与最终实现结构的TM分数很好地相关。图4b显示了改变电势结构的效果。完全去除距离电位,TM得分为0.266。通过平均相邻单元将距离图表示的分辨率降低到6个单元以下会导致TM分数降低。去除扭转电位、参考校正或V积分2平滑只会略微降低精确度。使用Talaris2014势和我们的参考校正距离势的样条拟合的组合,使用Rosetta 的最终“松弛”(侧链填充与梯度下降交织)添加侧链原子坐标,并产生0.007 TM分数的小平均改进。
我们已经证明,一个精心设计的深度学习系统可以提供精确的残基间距离预测,并可用于构建代表蛋白质结构的蛋白质特异性电位。此外,我们已经证明,这种潜力可以简单地优化梯度下降,以实现准确的结构预测。虽然自由建模预测很少接近实验结构的精度,CASP13评估表明,AlphaFold系统实现了前所未有的自由建模精度,这种自由建模方法可以在不使用模板的情况下与模板建模方法的性能相匹配,并开始达到生物学理解所需的精度(见方法)。我们希望我们所描述的方法能够得到进一步的发展,并应用于蛋白质科学的各个领域,对未知结构的序列进行更精确的预测。
图4 | TM分数与距离图的准确性,以及TM分数对电位不同成分的依赖性。(a) 对于CASP13(n=108)和test(n=377)数据集,TM评分与距离图lDDT 12以及皮尔逊相关系数。(b) 与去除电位的不同成分或增加罗塞塔松弛相比,在测试集(n=377)上的平均TM分数与降低距离图取样时使用的直方图箱数的对比。
图5 |折叠系统示意图。特征提取阶段用黄色表示,结构预测神经网络用绿色表示,潜在结构用红色表示,结构实现用蓝色表示。
图5显示了MSA构建、特征提取、距离预测、潜在构建和结构实现所涉及的步骤。
我们的模型是根据从蛋白质数据库1中提取的结构进行训练的。我们利用cath235%序列相似性聚类来提取非冗余结构域代表们。这个给出31247个域,这些域被分成训练集,测试集(分别为29427和182个蛋白质),使相同的同源超家族的所有域在同一分区中(在CATH分类中的H-水平)。来自CASP11和CASP12的FM结构域的CATH超家族也被排除在训练集外。从测试集中,我们为每个同源超家族取一个域来创建377个域子集,用于这里给出的结果。我们注意到,此集的精确度高于CASP13测试域。
CASP13提交结果来自CASP13结果页面,并根据CASP域定义在CASP13 PDB文件上对“所有组”链显示了CASP13数据集的附加结果。与字母折叠用于CASP13提交的距离图预测相比,从组032和498提交(作为RR文件)重新计算触点预测精度。通过将每个分布中的概率质量相加,从距离图中获得接触预测概率。
对于每个训练序列,我们在Uniclust30 3数据集中用HHblits 4搜索并对齐相似的蛋白质序列,并使用返回的MSA生成具有每个残基的位置特异性替换概率的轮廓特征,以及协变特征-类似于CCMPred 5的正则伪似然训练Potts模型的参数。CCMPred使用参数的Frobenius范数,但是我们为每个剩余对ij将这个范数(1个特征)和原始参数(484个特征)都输入到网络中。此外,我们还为网络提供了明确表示MSA中的空白和删除的功能。为了使网络能够更好地预测浅层MSA,作为一种数据扩充形式,在计算基于MSA的特征之前,我们从HHblits MSA中抽取一半的序列样本。我们的训练集为每个域包含10个这样的样本。我们使用PSI-BLAST 6提取额外的轮廓特征。
利用以下输入特征(特征个数)训练距离预测神经网络。
•HHblits对齐数(1D标量)
•序列长度特征:1-热氨基酸类型(21D),图谱:PSI-BLAST(21D),HH blits图谱(22D),无间隙图谱(21D),HHblits偏倚,HMM图谱(30D)Potts模型偏倚(22D);删除概率(1D);残基指数(残基数的整数指数,除多段域外连续,编码为5个最低有效位)和一个标量);
•序列长度平方特征:Potts模型参数(484D,使用Nesterov动量0.99,装配500次梯度下降迭代,无序列重加权);Frobenius范数(1D);间隙矩阵(1D)
利用深度神经网络对剩余距离进行预测。该结构是一个深二维扩张卷积残差网络。Xu等人7使用二维残差网络和一维嵌入层进行接触预测。我们的网络是二维的,使用220个剩余块8和扩展卷积9。如图6所示,每个剩余块由一系列神经网络层10组成,交错三个batchnorm层;两个1×1投影层;一个3×3扩展卷积层和ELU 11非线性。连续的层通过1,2,4,8像素的放大循环,以允许信息在裁剪区域快速传播。在最后一层,使用特定位置的偏倚,因此偏倚由残基偏移量(上限为32)和箱子编号索引。
图6 |深剩余卷积网络的一个块中使用的层。对降维特征采用扩张卷积。块的输出将添加到上一层的表示中。剩余网络的旁路连接允许梯度不减地通过网络返回,允许训练非常深的网络。
利用交叉熵损失对网络进行随机梯度下降训练。目标是对残基的Cβ原子之间的距离(甘氨酸的Cα)进行量化。我们将范围2–22Å量化为64个相等的箱子。网络的输入由二维特征数组组成,其中每个i,j特征是i和j的一维特征以及i,j的二维特征的串联。
通过使用27个CASP11 FM域作为验证集,对单独的培训运行进行交叉验证,并提前停止。在27个12个FM域上通过交叉验证选择模型。
•7×4块,256个通道,通过1、2、4、8个扩张器循环
•48×4块,128个通道,通过扩张器1、2、4、8循环
•优化:同步随机梯度下降
•批量大小:8个GPU工作人员中的每一个上4批作物
•0.85辍学保持概率
•非线性:ELU
•学习率0.06
•辅助损失重量:二级结构:0.005;可及表面积:0.001。这些辅助损失在10万步之后减少了10倍。
•学习率在15万、20万、25万和35万步时下降50%。
•训练时间:约5天,60万步
为了限制内存使用和避免过度拟合,网络总是在距离矩阵的64×64区域上训练,即64个连续残基和另一组64个连续残基之间的成对距离。对于每个训练域,将整个距离矩阵分解为不重叠的64×64个裁剪。通过训练非对角作物,可以模拟相距超过64个残基的残基之间的相互作用。每个作物由距离矩阵组成,距离矩阵表示两个64残基片段的并置。Jones和Kandathil 12已经表明,接触预测只需要一个有限的上下文窗口。我们注意到,接近对角线i=j的距离预测编码蛋白质局部结构的预测,对于任何裁剪区域,距离由两个片段的局部结构控制,这两个片段由裁剪的i和j范围表示。用与i和j范围相对应的对角线上的2D输入特征来增加输入提供了额外的信息来预测每个片段的结构,从而预测它们之间的距离。可以看出,如果碎片结构可以很好地预测(例如,如果它们被可靠地预测为螺旋或片状),那么碎片之间单一接触的预测将有力地限制所有其他对之间的距离
每次在训练中使用一个域时,随机化作物的偏移量会导致一种数据增强的形式,其中一个蛋白质可以生成成千上万个不同的训练示例。通过向原子坐标中添加噪声(与导致目标距离变化的地面真实分辨率成比例),这一点得到了进一步增强。数据增强(MSA子采样和坐标噪声)与丢失一起防止了网络对训练数据的过度拟合。
为了预测所有L×L残基对的距离分布,将许多64×64作物组合起来。为了避免边缘效应,使用不同的偏移量生成几个这样的平铺,并一起平均,在作物中心附近的预测权重更大。为了进一步提高准确度,将四个独立模型的预测结果进行平均,这些模型使用稍微不同的超参数进行独立训练。图7显示了三域CASP13目标的真实距离(a)和距离图预测模式(b)的示例。
图7 | CASP13目标T0990的预测距离图(b)的真实距离(a)和模式。CASP将该链分为3个域,如图所示(D3插入D2),其中分别有39、36和42个HHblits比对(来自CASP网站)。
由于该网络具有丰富的代表性,能够结合MSA的轮廓和协变特征,我们认为该网络可以直接用于预测二级结构。通过平均值和最大值将网络倒数第二层的2D激活分别集中在i和j中,我们在网络中添加了一个额外的一维输出头,该输出头预测了DSSP 13计算的j和i中每个残基的8类二级结构标签。得到的Q3(区分三个螺旋/薄片/线圈类)预测的准确率为84%,与最新的14相当。还可以预测每个残留物的相对可及表面积(ASA)。
一维联合激活也被用来预测边缘拉玛钱德兰分布:P(φi,ψi | S,MSA(S)),独立于每个残基,作为量化到10°(1296个箱子)的离散概率分布。在CASP13的实践中,我们使用了一个网络中的距离图,该网络被训练用于预测距离图、二级结构和ASA以及第二个网络中的扭转,类似的网络被训练用于预测距离图、二级结构、ASA和扭转,因为前者已得到更彻底的验证。
图8b显示,距离图准确性的一个重要因素(如之前在接触预测系统中发现的)是N eff,即MSA 15中的有效序列数。这是MSA中发现的序列数,扣除62%序列同一性水平的冗余,然后除以目标中的残基数,这是MSA中共变信息量的指示。
图8 |结构精度分析。(a) lDDT vs距离图lDDT 12(定义见下文“精确度”)。对于CASP13(n=108)和测试(n=377)数据集,距离图精度可以很好地预测实现结构的lDDT(以及图4a所示的TM分数)。用皮尔逊相关系数表示。(b) DLDDT 12对照MSA中有效序列数(N eff),按序列长度标准化(N=377)。有效序列的数目与距离图精确度的度量相关(r=0.634)。(c) 在测试集上计算的结构精度度量,用于对不同形式的势进行梯度下降优化。上图:删除潜在的条款,也显示了以下优化与罗塞塔放松效果。Bins显示了在外推之前样条拟合的Bins数以及完全分布中的Bins数。在64个箱子中的前51个装有13个花键。下面,降低距离图分布的分辨率。原始的64箱分布图预测通过对相邻箱求和,以因子2重复下采样,在每种情况下,恒定外推超过18Å(箱的最后14个)。最后一行的两能级电位,旨在与接触预测进行比较,通过将低于8Å和8–14Å之间的概率质量相加,并在14Å之外进行恒定外推来构建。本表中的TM分数绘制在图4(b)的精度测量中,在测试集(n=377)上计算,用于不同构造势的梯度下降优化。本表中的TM分数如图4b所示。
距离势估计离散距离元的距离图概率,用三次样条插值分布构造可微势。因为最终的箱子从超过22Å的所有距离累积概率质量,并且由于更大的距离更难准确预测,所以电势只能拟合到18Å(通过交叉验证确定),此后进行恒定的外推。
为了预测参考分布,在相同的数据集上训练相似的模型。参考分布不受序列的限制,但为了说明我们预测的原子之间的距离,我们提供了一个δαβ特征来指示残基是否是甘氨酸(Cα原子)和蛋白质的总长度。
距离势是由距离的负对数似然产生的,求和了所有对剩余i,j。
(1)
在参考状态下,这成为完全条件模型和背景模型下距离的对数似然比:
(2)
扭转被建模为预测扭转下的负对数似然分配。自我们有边际分布预测,每个预测都可能是多模态的,因此很难联合优化扭转。为了统一所有的概率质量,以多峰分布的建模保真度为代价,我们将单峰von Mises分布拟合到边际预测中。势能是所有剩余i的和。
(3)
最后,为了防止空间冲突,通过使用Rosetta的V score2_smooth引入了范德华项。
为了实现使构造的势能最小化的结构,我们建立了理想蛋白质骨架几何结构的可微模型,给出了骨架原子坐标作为扭转角(φ,ψ)的函数:x=G(φ,ψ)。完全势
最小值为*:
(4)
由于V total中的每一项相对于扭转角都是可微的,给定一组初始扭转角φ,ψ(可从预测的扭转角边缘取样),我们可以使用梯度下降算法(如L-BFGS 16)最小化V total。优化后的结构依赖于初始条件,因此我们用不同的初始条件重复优化多次。维持20个最低电位结构的池,一旦满了,我们初始化90%的轨迹,其中30°噪声添加到主干扭转中(其余10%从预测扭转分布中取样)。在CASP13中,我们为每个用户进行了5000次优化运行链。图2显示TM分数相对于重启次数的变化。由于较长的链条需要较长的时间来优化,因此该工作负载在(50+L)/2个平行工人之间平衡。图9显示,这是通过适度的计算预算实现的,它可以在多台机器上并行。
图9 | TM得分与每个目标计算时间的关系,计算为测试集的平均值(n=377)。噪声重启的完全优化(橙色)与采样扭转的初始化(蓝色)进行了比较。计算是以(基于CPU的)机器数量和所用时间的乘积来度量的,并且可以在很大程度上并行化。更长的目标需要更长的时间来优化。
我们将最终的结构与实验确定的结构进行比较,以使用TM评分、GDT TS 17和RMSD等指标来衡量其准确性。所有这些精度测量都需要候选结构和实验结构之间的几何对齐。无需校准的另一种精度测量方法是局部距离差测试(lDDT 18),它测量在15Å下,序列偏移量≥r残基的本机成对距离D ij的百分比,这些百分比在候选结构(如D ij)中实现,公差在真值范围内,平均公差为0.5、1、2和4Å(无立体化学检查)。
(5)
由于距离图预测两两距离,我们可以引入距离图lDDT(DLDDT),这是一种类似lDDT的度量,直接从距离图的概率计算得到。
(6)
由于序列中相邻残基之间的距离通常很短,更容易预测,并且在确定整体褶皱拓扑结构时并不重要,因此我们将r=12,仅考虑序列间隔≥12的残基的距离。由于我们预测了Cβ距离,因此在这项工作中,我们使用Cβ距离计算了lDDT和DLDDT。
用每个残基两个扭转角参数化长度为L的蛋白质,结构空间的维数增加到2L,因此寻找大的蛋白质结构变得更加困难。传统上,这个问题是通过将较长的蛋白质链分裂成独立折叠的片段来解决的。然而,这个问题
仅从序列中分割域本身就很困难,而且容易出错。在这项工作中,我们避免了域分割和折叠整个链。通常多序列比对基于给定的域分割,但是我们使用滑动窗口方法,计算全链多序列比对来预测基线全序列距离图。然后,我们计算链的子序列的msa,尝试大小为64、128、256的窗口,偏移量为64的倍数。这些msa中的每一个都产生一个单独的距离图,对应于全链距离图的对角线上的正方形。我们将所有这些距离图平均在一起,通过MSA中的序列数进行加权,以产生一个平均的全链距离图,该距离图在可以找到许多比对的区域更精确。
在CASP13中,5个字母来自3个不同的系统,都使用基于神经网络距离预测的电位。在T0975之前,使用了两种基于模拟退火和碎片组装的系统(使用40箱距离分布)。从T0975开始,使用新训练的64箱分布图预测,并通过这里描述的梯度下降系统(3次独立运行)以及其中一个碎片组装系统(5次独立运行)生成结构。从这8个结构(每个独立运行产生的最低潜在结构)中选择5个提交,第一个提交(“top-1”)是梯度下降产生的最低潜在结构。其余四个提交的是四个最好的其他结构,第五个是梯度下降结构,如果没有选择位置2、3或4。T0999的所有提交都是通过梯度下降生成的。图10a显示了每次提交所用的方法,与T0975之前目标的单次梯度下降生成的“回填”结构进行了比较。表10b显示了在CASP中后期部署的梯度下降方法在每个类别中都比片段组装方法表现更好。图10c将FM和FM/TBM域的AlphaFold提交的准确性与次优组322进行了比较。对于CASP13评估,使用Rosetta relax对全链进行放松,放松的电位为V-Talaris2014+0.2V距离(通过交叉验证确定权重),所有系统提交的数据均基于该电位进行排序。
图10 | AlphaFold CASP13结果。(a) 显示了5份13份提交材料的TM分数。带有片段集合条目的模拟退火如所示蓝色。渐变色-下降条目以黄色显示。梯度下降仅适用于T0975及更高版本的目标,因此在黑线左侧,我们还显示了使用已部署系统的每个早期目标的单个“回填”梯度下降运行的结果。基于hhpred19同源性匹配,手工分割T0999(1589个残基)。(b) AlphaFold CASP13提交的平均TM分数(n=104个域),比较提交的第一个模型、5个最佳模型(提交的GDT最高)、单次全链梯度下降(T0975及以后的CASP13运行,早期目标的回补)和一个带有域分割的片段汇编的单一CASP13运行(使用T0999的梯度下降提交)。(c) 评估员的公式标准化(z)评分GDT TS+QCS 20,CASP FM(n=31)和FM/TBM(n=12)领域的5分最佳,比较AlphaFold与最接近的竞争对手(322组),按领域类别着色。
预测结构有广泛的用途,所有这些都有不同的精度要求,从一般理解折叠形状到理解结合区域中详细的侧链配置。仅仅接触预测就可以指导biological insight 21,例如,针对突变来破坏蛋白质的稳定性。表1c所示接触预测的准确性表明,AlphaFold接触预测超过了现有技术。在这里,我们提出了进一步的结果,表明AlphaFold的准确性改进导致更准确的功能解释;更好的蛋白质-蛋白质相互作用的界面预测;更好的结合袋预测和改进的结晶学中的分子替换。
通常蛋白质的功能可以通过寻找已知基因的同源蛋白质来推断函数图11表明AlphaFold的FM预测在CATH数据库中基于结构的同源域搜索中提供了更高的准确性。
蛋白质-蛋白质相互作用是理解蛋白质功能的重要领域,由于需要高精度预测,迄今为止,蛋白质功能基本上仅限于基于模板的模型,尽管在与预测结构对接方面,成功23个,达到6奥姆标准差。图12显示,AlphaFold的预测提高了异二聚体结构中链的界面区域的准确性,并且可能是对接的更好的候选对象,尽管对接不构成字母折叠系统的一部分,所有提交的都是用于孤立链而不是复合物。
图12 |接口预测精度。对于五个全群异二聚体CASP13靶,计算了相对于靶络合物的所有群链提交的界面残基(基真值链间重原子距离<10Å的残基)的全原子RMSDs。结果>8Å未显示。AlphaFold实现了一致的高精度界面区域,5个目标中有4个预测两条链的界面小于5Å。
图13 | T1011 PDB 6M9T的配体袋可视化:与米索前列醇FA 24结合的EP3受体(a)显示袋中配体的天然结构。(b) AlphaFold提交的5(78.0 GDT-TS)在不知道配体的情况下显示了一个比(c)最好的其他提交(322模型3,68.7 GDT-TS)更类似于真实口袋的口袋。这两个提交是对齐的天然使用相同的子集残基螺旋接近配体口袋和可视化与内部口袋一起与天然配体的位置。
图13显示了字母折叠达到足以与生物相关的准确性的进一步证据。T1011中的袖珍图表明,字母折叠结构预测的精度增益可以更准确地预测袖珍几何,从而使配体结合。
迄今为止,只有基于模板的预测能够提供最准确的预测。虽然AlphaFold能够在不使用模板的情况下匹配基于模板的建模,在某些情况下,FM目标的精度仍然落后于TBM目标和TBM目标的精度(例如T0981-D5、72.8GDT TS和T0957s1-D2、88.0 GDT TS、两个TBM硬域,其中AlphaFold的top-1模型比任何其他top-1提交的模型都要好)精度仍然滞后于TBM目标和对于坚硬结构的详细理解,仍然不能依靠。在分析CASP13 TBM分子替换预测性能时,Read等人25报告说,字母折叠预测(原始坐标,无B因子)导致的对数似然增益(LLG)略高于任何其他组,说明这些改进结构有助于X射线晶体学的相移。
我们已经证明,深距离预测神经网络具有很高的精度,但我们希望了解网络如何实现其距离预测,特别是了解模型的输入如何影响最终预测。这可能导致对折叠机制的理解或对模型的改进。然而,深层神经网络是其输入的复杂非线性函数,因此这一属性问题是一个困难的、规定不足的和正在进行的研究课题。即便如此,也有许多方法可用于此类分析:在这里,我们将综合梯度[26]应用于经过训练的距离图网络,以指示影响网络对特定距离预测的输入特征的位置。
给定任意两个剩余I和J,di,J(x)之间距离的期望值,我们可以考虑它对输入特征xi,J,c的导数,其中I和J是剩余指数,c是特征通道指数。然后,使用积分梯度计算的剩余I和J之间相对于输入特征的期望距离的归属函数被定义为
其中x 0是一组特征的参考集;在这种情况下,我们在空间上平均输入特征:
在训练的距离图网络上,用反向传播法计算d的导数,并将α上的积分近似为数值求和。
图14离散图网络的属性图T0986s2的概率图,以及输入2D特征的积分梯度c | S I,J,c |相对于五个不同的残基对(I,J)之间的期望距离的绝对值P接触I,J:(1)螺旋自接触,(2)长距离站立链接触,(3) 中等范围的钢绞线接触,(4)非接触和(5)非常长范围的钢绞线接触。每一对在屏幕上显示为两个红点图。更暗意味着更高的归因权重。
图15 |预测结构属性。对于T0986s2(TM得分0.8),图14所示的五个输出对中每一个都具有最高归因权重的前10个输入对(包括自我对)显示为线(或球体,对于自我对),用灵敏度着色,浅绿色更敏感,输出对显示为蓝线。
图14中,T0986s2中选定i、j输出对显示了求和绝对积分梯度c | S i、j、c |的图,图15中,每个输出对的前10个最高属性输入对显示在AlphaFold的top-1预测结构之上。属性图是稀疏和高度结构化的,紧密地反映了蛋白质的预测几何结构。对于呈现的四个in-contact对(1、2、3、5),所有最高属性对都是一个或两个输出对所属的二级结构内或二级结构之间的对。在(1)中,螺旋残基以及沿着螺旋两端的链之间的连接很重要,这可能表示螺旋上的应变。在(2)中,所有最重要的残基对连接相同的两条链,而在(3)中,链间对和链残基的混合最为显著。在(5)中,最重要的对涉及到附近的二级结构元素向股线和螺旋线的堆积。对于非接触对(4),最重要的输入对是在预测的蛋白质结构中几何上位于I和J之间的残基。此外,大多数高归因输入对本身是接触。
由于网络的任务是预测空间几何结构,而输入端没有可用的结构,这些交互模式表明网络正在使用中间预测来发现重要的交互作用,并从相关残留物中传递信息以细化最终预测。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。