赞
踩
-因:预测分子属性作为化学和药物学中最基础的任务,在近年深度学习的发展下,许多监督学习模型已经通过预测分子属性来学习分子的表示。但是监督学习模型需要大量标记数据,由于实验数据以及标注工作的成本昂贵,以及分子的数量之多以及多样性,监督模型几乎不能泛化到一些未可见的案例,这也就抑制了模型在化学以及药物学领域的发展。
-发展:为了缓解上述问题,有一些工作尝试通过masked attribute prediction (Hu 2020)、graph-level motif prediction (Rong 2020) 、graph context prediction(Liu 2019);另一部分工作根据来自CV领域的对比学习框架,致力于利用图增强(node dropping、edge perturbation、subgraph extraction)构建相似和不相似的view pairs。
-果:本文选择具有更少的参数,以及更简单的预定义任务的对比学习框架来研究分子的表示学习。
-困难:图对比学习与图像对比学习不同,图的语义和结构信息根据领域的不同差距很大,因此构建一个通用的增强scheme非常困难,尤其是化学分子,删除或者增加一个键会巨大改变他们的性质和属性(You 2020);更重要的是图对比学习模型主要注重图的结构,并没有考虑图本身语义当中一些基础的领域知识;而且在建模原子时只考虑了有边链接的结构,而忽略了哪些没有键连接但是具有相同属性的原子之间的关联。
-工作的引出以及大概的研究方法:为了克服上述的困难,文章将领域知识包含进分子的图形表示当中。由于化学的领域知识非常关键,文章假设元素的属性能够影响分子的性质。1. 为了获取领域知识并建立原子之间的关联,文章首先基于Periodic Table of Elements构建了化学分子知识图谱;2. 然后根据知识图谱增强分子图的表示,帮助建立具有相同属性但是并不直接相连的原子之间的关联。这种方式下,增强后的分子图不仅仅包含结构拓扑信息也包含了基本元素领域知识;3. 综上所述,我们提出了一个新的知识增强的对比学习框架使用三个模块提升分子的表示。1)-knowledge-guided graph augmentation 利用知识图谱引导图增强保存图的拓扑结构并建立原子之间的关联;2)knowledge-aware graph representation使用通用的图编码器编码原始分子图,同时设计一个Knowledge-aware Message Passing Neural Network (KMPNN) 编码器用于增强之后的分子图提供异质注意的信息传播;3)-contrastive objective训练编码器最大化正例和非负例之间差异的一致性。
Knowledge Feature Initialization:不同于原子和键的随机初始化,为了获取增强分子图属性与关系的初始特征,文章采用了常用的知识图谱嵌入方法RotateE, 训练训练元素知识图谱。通过这种方式,最初的特征便能够抓住三元组的结构信息。
KMPNN Encoder:增强后的分子图是复杂的不规则结构数据,包含两种信息类型(隐藏于分子键中的结构知识以及从化学元素知识图谱中提取的领域知识),因此文章设计了一个KMPNN编码器,利用
f
′
(
.
)
f'(.)
f′(.)学习图级别的表示。这个编码器背后的关键思想是为不同类型的邻居提供两种不同的消息传递方式,并根据他们的重要性分配不同的注意力。
GNN-based Encoder:对f(-)没有网络结构的约束。架构对 f ( . ) f(.) f(.)的约束。我们选择了简单的方法,采用常用的GCN来获得 h G = f ( G ) h_G = f(G) hG=f(G),这是经过加权求和后的输出及最大池化读出。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。