当前位置:   article > 正文

论文解读| NeurIPS 2022:面向科学任务的图神经网络设计

eghn

点击蓝字

e69a55e6d8ef8cc4ce3a4e64ea503a13.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

近日中国人民大学高瓴人工智能学院师生有23篇论文被CCF A类国际学术会议NeurIPS 2022录用。神经信息处理系统大会(Neural Information Processing Systems,简称NeurIPS) 是机器学习和计算神经科学领域的顶级国际会议。近期学院将推出【NeurIPS 2022论文解读专题】,详细分享被录用的优秀论文,供师生们交流学习。本文将解读三篇被NeurIPS 2022录用的论文。内容概要及作者信息如下:

AI + Science致力于利用科学中的知识提高人工智能方法的可解释性、泛化性和通用性,并利用人工智能方法解决科学领域的研究问题。鉴于物理和生物世界中的许多物质,例如药分子、蛋白质、点云等,天然形成了具有特定几何结构的图(Graph),基于图的人工智能方法(以图神经网络为代表)自然地成为了AI + Science的代表性工具。本报告以面向科学任务的图神经网络设计为主题,介绍药分子生成、蛋白质动力学模拟、宏观物理交互模拟等3个典型任务上所提出的一些新概念、新模型和新方法。

论文1:孔祥哲, 黄文炳, 谭知行, 刘洋,Molecule Generation by Principal Subgraph Mining and Assembling,NeurIPS 2022.

论文2:韩家琦, 黄文炳, 徐挺洋, 荣钰,Equivariant Graph Hierarchy-based Neural Networks,NeurIPS 2022.

论文3:韩家琦, 黄文炳, 马珩博, 李家琛, Joshua B. Tenenbaum, 淦创,Learning Physical Dynamics with Subequivariant Graph Neural Networks, NeurIPS 2022.

一、基于主子图的药物分子生成

c53e75edb2122e62e81178e951a1737e.png

8b7341770d3d7a551fee2f9f7b8462c9.png

cd3a54e5f982998ffd54e0dc72645f24.png

设计合理有效的药分子,是智能药物发现领域的核心任务。然而,现有基于子图预测和组装方法存在两个缺陷:在子图库的构建上,多依赖于切割单键、抽取成环子图等人工规则或外部的化学结构库;在子图组装上,多局限于局部的连接模式。我们提出了主子图principal subgraph(PS)这一概念,并发现PS可以捕捉分子中带有丰富信息的特定模式。同时,提供了一种基于合并-更新的算法用于自动地从数据集中抽取高频出现的PS,并作为子图库用于后续的分子图生成。具体算法流程如下:

d47b4e83884c5f111f2b2b366f5e8bd5.png

进一步地,本文提出了一种两步式的子图预测和组装方法,以序列预测的方式确定要生成的子图,之后全局地将子图组装为完整的分子。生成过程如下图所示

b9cf1eb84cd3ddaf0a5a2c929f500533.png

大量实验显示,本文提出的基于PS子图库以及两步式生成框架的模型在效率和效果上相比现有方法都有显著的提升。下表是我们方法在GuacaMol goal-directed benchmark的效果。

8e9bf779c3b4e15f45855c7f7b160edf.png

二、多层级等变图神经网络EGHN

2602659c8e5ef88d5b174cb2168581d2.png

a9f72846c62581ecf5848a90d5bbe28a.png

dab6d3d82e3844c25a243f411d2e5ae0.png

蛋白质动力学模拟对于研究生命过程、生命物质与药物结合过程至关重要。DeepMind提出的AlphaFold2,虽然能精准预测蛋白质的3维结构,但是对于蛋白质折叠动力学的分析却无能为力。我们的论文利用等变GNN这一工具,为蛋白质动力学模拟任务提供了有益的尝试。我们首次提出了多层级等变图神经网络EGHN,其由等变池化E-Pool和等变去池化E-UnPool两个部分通过U-Net连接组成,分别负责信息从细粒度到粗粒度的聚合、从粗粒度到细粒度的发散。相比传统等变GNN而言,考虑了系统的多层级结构,从而有效挖掘系统内部的子结构以及全局信息。模型架构如下图所示:

41940b6a2ac8bbd260c301200d0b2673.png

我们证明了EGHN中的等变信息传播层EMMP的表达能力比传统模型更强:

定理:在某个特定设计下,EMPP会退化成EGNN和GMN。

我们基于分子动力学工具MDAnalysis构建了一个关于蛋白质动力学模拟的任务。在这个数据集以及其他相关任务上,我们证明了考虑多层级等变的必要性和有效性。下图是蛋白质结构预测误差对比。

c0e6fba92d99e2806915cdf41103f8fd.png

5c784cfeba14f5fdc33a50941037e911.png

三、子等变图神经网络Subequivariant GNN

25acb6663d3be8c57f159eb42d30f375.png

7607ebfcf887aadc6dd4a556591fad9b.png

3a92eb1dbc00084bb505164069799e88.png

对多物体交互的物理场景进行模拟,对于智能体的感知和决策十分重要。GNN是学习物理系统动力学的有效工具之一。然而,现有方法要么完全忽略物理定律的对称性,要么考虑过多对称性,忽略了外部力场(如重力)所造成的对称性破却。本文首次提出了“子等变”(Subequvariance)的概念,即把欧氏GNN放缩成,只服从由外部力场所诱导子群上的等变GNN,并给出表达能力的完备性证明。

5e321c734e4421cedb816ba801fbe345.png

Physion是近期由斯坦福大学、MIT等机构构建的数据集,包含了多种复杂刚体、变形体等物理对象的相互碰撞、摩擦、折叠等交互行为,如下图所示:

c74776e7d1e194622a52d870090fdae5.png

在这个数据集以及其他相关任务上,我们验证了子等变GNN的必要性和有效性。下表是轨迹预测误差对比:

22e1f589242eed7d6e5e3674354bb4f1.png

往期精彩文章推荐

d165b50e21275e143c9c4f17dcf1dd0a.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了800多位海内外讲者,举办了逾400场活动,超400万人次观看。

9b77c4a7b39622a678284f03b81ae5e1.png

我知道你

在看

~

21ea70b1356507ad373b871a4e65b2e7.gif

点击 阅读原文 查看回放!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/884080
推荐阅读
相关标签
  

闽ICP备14008679号