赞
踩
省流:
AlphaFold3能做什么:预测蛋白质、DNA、RNA与允许的配体/离子/共价修饰的复合物结构
为什么要用AlphaFold3:有强大的泛化性和准确率,除了RNA结构略差于AIchemy_RNA2外,预测精度高于现有方法(包括Vina和RosettaFold-All-Atom)
AlphaFold3怎么用:代码不开源,网站https://alphafoldserver.com/需注册使用,每日限制提交任务(2024/05/17为每日20次提交)
mini-rollout: Several of the heads require predicted coordinates, therefore at training time we do a short rollout of the Diffusion Module from pure noise with 20 steps. 用这里提取的结构来训练 confidence head。
衡量什么:Predicted local distance difference test,预测仅考虑到聚合物距离的 LDDT 分数,值越高表示置信度越高。 对于配体原子,仅考虑配体原子与聚合物之间的误差,而不是配体原子之间的其他误差。
怎么算:对于原子 l l l, lddt l = ∑ m ∈ R 1 4 ∑ c ∈ { 0.5 , 1 , 2 , 4 } d l m < c \operatorname{lddt}_l=\sum_{m \in R} \frac{1}{4} \sum_{c \in\{0.5,1,2,4\}} d_{l m}<c lddtl=∑m∈R41∑c∈{0.5,1,2,4}dlm<c
d l m d_{l m} dlm:原子 l l l和原子 m m m的距离in the mini-rollout prediction。 m m m需要满足以下要求:
多高算好:pLDDT 大于 90 被视为最高精度类别,在这种情况下,蛋白主链和侧链通常都能被高精度预测。相反,pLDDT 大于 70 通常对应着主链预测正确但部分侧链位置错误的情况。
为什么会低:
衡量什么:Predicted aligned error,预测结构中两个token之间的相对位置和方向的误差(the error of one token when aligned according to the frame of another)
怎么算: PAE i j = ∑ b = 1 64 Δ b p i j b \operatorname{PAE}_{i j}=\sum_{b=1}^{64} \Delta_b p_{i j}^b PAEij=∑b=164Δbpijb
Δ b \Delta_b Δb: distance bin centers
对于蛋白质和核酸,PAE 评分本质上与 AlphaFold2 相同,其中误差是相对于由蛋白质主链构建的框架来测量的。对于小分子和翻译后修饰,从参考构象异构体的最邻近原子为每个原子构建框架。
多高算好:值越高表示预测误差越高,因此置信度越低。
对比其他模型:AutoDock Vina,RosettaFold-All-Atom
指标:% of pocket-aligned ligand RMSD < 2Å
数据集:
比较结果:
对比其他模型:RoseTTAFold2NA(RFAA精度低于RoseTTAFold2NA),AIchemy_RNA2(the best AI-based submission in CASP15)
指标:针对复合物是iterface LDDT,单体RNA仅为LDDT
数据集:PDB数据库中蛋白-RNA,蛋白-dsDNA;CSAP15比赛的RNA单体
比较结果:
指标:% of pocket-aligned ligand RMSD < 2Å
数据集:Recent PDB
比较结果:在磷酸化 (SEP、TPO、PTR、NEP、HIP)场景,有PTM建模结果更好
对比其他模型:AlphaFold-Multimer v2.3
指标:% DockQ > 0.23 for protein-protein and protein-antibody interfaces,LDDT for Protein monomers
数据集:Recent PDB
比较结果:
复合物任务完整汇总见Extended Data Table 1
stereochemistry
spurious structural order (hallucinations) in disordered regions:主要是具有非常低pLDDT和预测中位置不一致的虚假α螺旋,缺乏AlphaFold 2在无序区域产生的典型丝带状外观。
- use distillation training from AlphaFold 2 predictions
- add a ranking term to encourage results with more solvent accessible surface area
- 无序区域的存在影响附近的pLDDT,去除无序尾部可以更清晰地显示有序区域的置信度。
static:无法区分构象转变
- MSA resampling
引入更多model seeds可以提升预测结果:模型置信度输出与预测准确性相关,并且相关性的强度因分子类型而异。在某些情况下,只有通过运行多个种子并选取排名靠前的样本才能实现最佳模型性能;抗体-抗原相互作用尤其如此。
要描述糖链,使用与相应糖链相对应的3字母CCD代码(PDB中的化学组分)。请注意,立体异构体由不同的CCD代码描述,例如,甘露糖可以描述为MAN用于α-D-甘露糖和BMA用于β-D-甘露糖。
网站支持以下糖链残基附着到蛋白质残基:
支持的糖链可以以树的形式构建,每个糖链有一个或两个下游连接,附着在蛋白质残基上。总共支持多达8个糖链残基。
糖链 - 糖链连接也应该是化学上有效的。例如,GLC(NAG)(MAN)不是有效的分支糖链,因为NAG和MAN不能与GLC形成糖苷键。
网站假定糖苷键是在PDB中类似键中出现频率最高的位置之间形成的——这可能导致模型结构中的键位置与预期不同。目前不支持指定糖苷键的确切原子。
网站每次运行返回五个预测。结果页面显示排名最高的预测,并且所有样本及其相关的置信度都可通过“下载”按钮以zip文件形式下载。
对于每个预测样本,提供两个JSON文件。
禁止使用模型输出:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。