赞
踩
蛋白质-小分子构象预测是小分子药物发现中的一项重要任务,用于预测小分子(配体)与目标靶蛋白(受体)之间的结合作用。尽管传统的基于物理的对接工具被广泛使用,但构象采样的有限和评分函数的不精确,都影响了这些工具的准确性。近年来,也有学者尝试将深度学习技术引入其中,以提高蛋白质-小分子构象预测的准确性。然而,训练数据的匮乏使这些模型在泛化能力上存在较大挑战。因此,解决蛋白质-小分子构象数据匮乏问题,并研发高精度和强泛化能力的模型变得尤为迫切。
近日,百度飞桨螺旋桨PaddleHelix团队研发并开源了基于大规模预训练方法的HelixDock全原子扩散模型,能够准确预测蛋白质和小分子的结合构象。该工作由百度牵头,联合国家超算某中心、清华大学药学院、北京拓领博泰公司共同完成,通过生成大规模的仿真数据,构建了一个亿级别的蛋白质-小分子对接构象数据集,用于模型的预训练。该方法已经在多个药物研发管线中落地,包括与清华和拓领博泰共同合作的一项自身免疫疾病相关靶点,通过HelixDock精准的构象预测能力,成功找到6个具有高潜力的先导化合物分子。
图一:HelixDock框架图
HelixDock显著提升构象预测准确度
HelixDock在构象预测上的精度远超基于物理的工具和其他基于深度学习的方法,在最新的PoseBusters上428个样例的成功率达到了85.6%,仅次于DeepMind最新发布的AlphaFold3,远高于其他方法(如图二)。
图二:HelixDock在PoseBusters上的效果
通过分析不同方法在与训练集相似度低的靶点上的精度,进一步验证了模型的泛化能力。HelixDock在相似度低的靶点上仍然保持良好成功率(如图三)。靶点不同状态下的准确性同样可以验证方法的泛化能力,HelixDock在cross-docking的两个数据集(PDBbind-CrossDocked-Core和APObind-Core)中同样展现出非常高的精度,预测成功率分别维持在80.7%和68.1%(如图四),再次彰显HelixDock的鲁棒性。
图三:HelixDock在PoseBusters上不同相似度靶点上的效果
图四:HelixDock在cross-docking上的效果
在PoseBuseters的构象合法性评测中,HelixDock也展现出良好的合法性(如图五)。
图五:HelixDock在PoseBuseters上的构象合法性
在与药物研发更直接的虚拟筛选任务上,使用HelixDock预测的构象,在包含102个药物靶点的虚拟筛选基准数据集DUD-E上验证,结果表明HelixDock在富集指数(EF1%,EF5%)上(如图六),相比其他方法具有明显优势。
图六:HelixDock在DUD-E数据集上的表现
大规模数据验证AI for Science领域的Scaling Laws
为了解决蛋白质-配体结构预测在数据量和多样性上严重不足,HelixDock联合国家超算某中心使用传统的分子对接工具生成亿级别的仿真对接数据,包含近20万的靶点,覆盖两千多个蛋白质家族,用于模型的预测。
实验结果表明,在预训练下,模型的精度随着参数量和数据量的增加而持续提升,而在无预训练时,模型在参数持续增加时并未取得精度的提升。该结果表明,在AI for Science领域,大语言模型所具备的数据和参数的Scaling Laws也同样适用(如图七)。大数据大模型对提升AI在药物发现领域的效果,至关重要。
图七:HelixDock精度在预训练情况下随模型参数量和数据量的提升而提升
HelixDock代码和训练数据面向学术领域全面开源
为了推动小分子药物发现领域的前沿探索,为学术领域的研究者们提供最大助力,HelixDock最新技术将面向学术领域的研究人员全面开放,包括代码和亿级别的训练数据,帮助加速AI技术在小分子药物研发领域的落地,促进该领域的发展(商业客户可通过官网“合作咨询”入口咨询具体商用规则)。
代码可在PaddleHelix官方仓库下载:
https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/molecular_docking/helixdock
训练数据通过如下链接联系飞桨螺旋桨PaddleHelix团队免费获取(请注明单位名称)
https://paddlehelix.baidu.com/partnership
官方网站:https://paddlehelix.baidu.com/
与此同时,为了方便药物研发领域的从业人员,简单快捷的体验HelixDock的能力,PaddleHelix计算平台也提供免费在线服务,用于实时体验,访问地址:
https://paddlehelix.baidu.com/app/drug/helix-dock/forecast
更多细节内容可查阅arxiv论文:
https://arxiv.org/abs/2310.13913
如有任何其他问题,欢迎反馈研发团队:
baidubio_cooperate@baidu.com
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。