当前位置:   article > 正文

百度蛋白配体全原子扩散模型效果直逼AlphaFold3,代码数据全面开源

百度蛋白配体全原子扩散模型效果直逼AlphaFold3,代码数据全面开源

84b4614d132442f8d94c401025aa2f04.gif

蛋白质-小分子构象预测是小分子药物发现中的一项重要任务,用于预测小分子(配体)与目标靶蛋白(受体)之间的结合作用。尽管传统的基于物理的对接工具被广泛使用,但构象采样的有限和评分函数的不精确,都影响了这些工具的准确性。近年来,也有学者尝试将深度学习技术引入其中,以提高蛋白质-小分子构象预测的准确性。然而,训练数据的匮乏使这些模型在泛化能力上存在较大挑战。因此,解决蛋白质-小分子构象数据匮乏问题,并研发高精度和强泛化能力的模型变得尤为迫切。

近日,百度飞桨螺旋桨PaddleHelix团队研发并开源了基于大规模预训练方法的HelixDock全原子扩散模型,能够准确预测蛋白质和小分子的结合构象。该工作由百度牵头,联合国家超算某中心、清华大学药学院、北京拓领博泰公司共同完成,通过生成大规模的仿真数据,构建了一个亿级别的蛋白质-小分子对接构象数据集,用于模型的预训练。该方法已经在多个药物研发管线中落地,包括与清华和拓领博泰共同合作的一项自身免疫疾病相关靶点,通过HelixDock精准的构象预测能力,成功找到6个具有高潜力的先导化合物分子。

5bcfbfef8a9a6c08bf18e0d8849f2090.png

图一:HelixDock框架图

7a6ed6f744d4391801ae31fb2c47f8fc.png

HelixDock显著提升构象预测准确度

HelixDock在构象预测上的精度远超基于物理的工具和其他基于深度学习的方法,在最新的PoseBusters上428个样例的成功率达到了85.6%,仅次于DeepMind最新发布的AlphaFold3,远高于其他方法(如图二)

bb06a9044e361d29db67965f222f02ac.png

图二:HelixDock在PoseBusters上的效果

通过分析不同方法在与训练集相似度低的靶点上的精度,进一步验证了模型的泛化能力。HelixDock在相似度低的靶点上仍然保持良好成功率(如图三)。靶点不同状态下的准确性同样可以验证方法的泛化能力,HelixDock在cross-docking的两个数据集(PDBbind-CrossDocked-Core和APObind-Core)中同样展现出非常高的精度,预测成功率分别维持在80.7%和68.1%(如图四),再次彰显HelixDock的鲁棒性。

4ce1113c22206bfa0f7f9c32549eff66.png

图三:HelixDock在PoseBusters上不同相似度靶点上的效果

56a50f1ffe400d8653abc2a73b97beb1.png

图四:HelixDock在cross-docking上的效果

在PoseBuseters的构象合法性评测中,HelixDock也展现出良好的合法性(如图五)。

6155a387a05ed73c751be1f270a3ab58.png

图五:HelixDock在PoseBuseters上的构象合法性

在与药物研发更直接的虚拟筛选任务上,使用HelixDock预测的构象,在包含102个药物靶点的虚拟筛选基准数据集DUD-E上验证,结果表明HelixDock在富集指数(EF1%,EF5%)上(如图六),相比其他方法具有明显优势。

868979b506ec112ed9cb5e73a0925fb7.png

图六:HelixDock在DUD-E数据集上的表现

796a197ea91ed18a9efc0915a8d8231b.png

大规模数据验证AI for Science领域的Scaling Laws

为了解决蛋白质-配体结构预测在数据量和多样性上严重不足,HelixDock联合国家超算某中心使用传统的分子对接工具生成亿级别的仿真对接数据,包含近20万的靶点,覆盖两千多个蛋白质家族,用于模型的预测。

实验结果表明,在预训练下,模型的精度随着参数量和数据量的增加而持续提升,而在无预训练时,模型在参数持续增加时并未取得精度的提升。该结果表明,在AI for Science领域,大语言模型所具备的数据和参数的Scaling Laws也同样适用(如图七)。大数据大模型对提升AI在药物发现领域的效果,至关重要。

aa6055fb5891c6bae4bb337c3f0b8dd1.png

图七:HelixDock精度在预训练情况下随模型参数量和数据量的提升而提升

50290e5299fb265a12318063a2809543.png

HelixDock代码和训练数据面向学术领域全面开源

为了推动小分子药物发现领域的前沿探索,为学术领域的研究者们提供最大助力,HelixDock最新技术将面向学术领域的研究人员全面开放,包括代码和亿级别的训练数据,帮助加速AI技术在小分子药物研发领域的落地,促进该领域的发展(商业客户可通过官网“合作咨询”入口咨询具体商用规则)。

代码可在PaddleHelix官方仓库下载:

https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/molecular_docking/helixdock

训练数据通过如下链接联系飞桨螺旋桨PaddleHelix团队免费获取(请注明单位名称)

https://paddlehelix.baidu.com/partnership

官方网站:https://paddlehelix.baidu.com/

与此同时,为了方便药物研发领域的从业人员,简单快捷的体验HelixDock的能力,PaddleHelix计算平台也提供免费在线服务,用于实时体验,访问地址:

https://paddlehelix.baidu.com/app/drug/helix-dock/forecast

更多细节内容可查阅arxiv论文:

https://arxiv.org/abs/2310.13913

如有任何其他问题,欢迎反馈研发团队:

baidubio_cooperate@baidu.com

0f7034d82eb9b26c787e0a93bc03a851.png

f046f2faa1b1fd0fd50537403da4f983.png

6eb0759d3da36d49ad7d16ad7566783c.png

a98a9ad9e4bd72dfa968d73abc4454e3.gif

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/662983
推荐阅读
相关标签
  

闽ICP备14008679号