当前位置:   article > 正文

【论文研读】Geometric Deep Learning on Molecular Representations

【论文研读】Geometric Deep Learning on Molecular Representations

Geometric Deep Learning on Molecular Representationsicon-default.png?t=N7T8https://arxiv.org/pdf/2107.12375.pdf

一、Background

       随着网络时代的发展,生活中产生的数据量越来越多,但数据大体分为两类欧氏数据、非欧氏数据。如图为两类常见的数据,而绝大多数深度学习都是在欧氏数据(Euclidean Data)上进行的,包括一维和二维域中的数据类型。但在现实世界中我们并不存在于一维或二维世界。所有我们能观察到的都存在于3D中,其使用的数据集中的数据基本都反映出这一点。

       欧氏数据是一类具有很好的平移不变性图像中的平移不变性:即不管图像中的目标被移动到图片的哪个位置,得到的结果(标签)应该相同的的数据。对于这类数据以其中一个像素为节点,其邻居节点的数量相同。所以可以很好的定义一个全局共享的卷积核来提取图像中相同的结构卷积被定义为不同位置的特征检测器。对于常见的欧氏数据,如图像是一种2D的网格类型数据,通常用矩阵进行存储。文本是一种1D的网格类型数据,通常可以用向量进行存储。对于文本,我们通常做法是去停用词、以及高频词(DIFT),最后嵌入到一个一维的向量空间。

       而且,因为这类型的数据排列整齐,不同样本之间可以容易的定义出  “距离”  这个概念出来。我们假设现在有两个图片样本,尽管其图片大小可能不一致,但是总是可以通过空间下采样的方式将其统一到同一个尺寸的,然后直接逐个像素点进行相减后取得平方和,求得两个样本之间的欧氏距离是完全可以进行的。如公式所示。因此把图片样本的不同像素点看成是高维欧几里德空间中的某个维度,因此一张m×n的图片可以看成是m×n维的欧几里德样本空间中的一个点,而不同样本之间的距离就体现在了样本点之间的距离了。

       非欧氏数据是一类不具有平移不变性的数据。这类数据以其中的一个为节点,其邻居节点的数量可能不同。样本总得来说有两大类型,分别是(Graph)数据流形数据(manifolds),这两类数据有个特点就是,排列不整齐,比较的随意。具体体现在:对于数据中的某个点,难以定义出其邻居节点出来,或者是不同节点的邻居节点的数量是不同的。

       这个其实是一个特别麻烦的问题,因为这样就意味着难以在这类型的数据上定义出和图像等数据上相同的卷积操作出来,而且因为每个样本的节点排列可能都不同,比如在生物医学中的分子筛选中,显然这个是一个Graph数据的应用,但是我们都明白,不同的分子结构的原子连接数量,方式可能都是不同的,因此难以定义出其欧几里德距离出来,这个是和我们的欧几里德结构数据明显不同的。因此这类型的数据不能看成是在欧几里德样本空间中的一个样本点了,而是要想办法将其嵌入(embed)到合适的欧几里德空间后再进行度量。而现在流行的GNN便可以进行这类型的操作。

       当用非欧氏的方式来表示事物时,我们给了它一种归纳偏置(inductive bias指在学习算法中,当学习器去预测其未遇到过的输入结果时,所做的一些假设的集合。这是基于一种直觉:给定任意类型、格式和大小的数据,可以通过更改数据的结构来确定模型的优先级,以了解特定的模式。机器学习试图去建造一个可以学习的算法,用来预测某个目标的结果。要达到此目的,要给于学习算法一些训练样本,样本说明输入与输出之间的预期关系。然后假设学习器在预测中逼近正确的结果,其中包括在训练中未出现的样本。既然未知状况可以是任意的结果,若没有其它额外的假设,这任务就无法解决。这种关于目标函数的必要假设就称为归纳偏置。

       基于这种直觉,几何深度学习(GDL 是深度学习中的小众领域,旨在建立可以从非欧氏数据中学习的神经网络。

二、Motivation

       深度学习是基于神经网络的人工智能的一个实例,近年来的进展已经在分子科学中产生了许多应用,如药物发现、量子化学和结构生物学。

       深度学习的两个特点使它在应用于分子时特别有前途。首先,深度学习方法可以处理“非结构化”的数据表示,如文本序列、语音信号、图像和图表。这种能力对分子系统尤其有用,化学家已经为分子系统开发了许多模型(即“分子表示”),这些模型在不同的抽象级别上捕捉分子的特性。以青霉素亚结构penam(青霉烷)为例:

a图为2维的Kekulé描写;

b图为2维的分子图,由顶点(原子)和边(键)组成;

c图为简化分子线性输入规范字符串(SMILES),其中原子类型、键类型和连通性由字母和数字字符指定;

d图为三维图,由顶点(原子)、它们在3D空间中的位置(x, y, z坐标)和边()组成;

e图则是根据分子内各自的原子类型,以网状的形式表示的分子表面。

       第二个关键特征是,深度学习可以从输入数据中执行特征提取(或特征学习),即从输入数据中生成数据驱动的特征,而不需要人工干预。

       这两个特征对于深度学习来说很有前景,可以作为“经典”机器学习应用(例如,定量构效关系[QSAR]一种借助分子的理化性质参数或结构参数,以数学和统计学手段定量研究有机小分子生物大分子相互作用、有机小分子在生物体内吸收、分布、代谢、排泄等生理相关性质的方法)的补充,在这种应用中,分子特征(例如,“分子描述符”)通过基于规则的算法进行先验编码。从非结构化数据中学习并获得数据驱动的分子特征的能力导致了AI在分子科学中前所未有的应用。

       几何深度学习(GDL)是一种基于融合和处理对称信息的神经网络架构的方法,是人工智能领域最近出现的一种范式,也是深度学习中最有前途的进展之一。它将神经网络推广到欧几里德和非欧几里德领域,如图、流形、网格或字符串表示。

       一般来说,GDL包含了包含几何先验的方法,即关于输入变量的结构空间和对称属性的信息。利用这种几何先验来提高模型捕获的信息的质量,因此GDL在具有不同对称性和抽象级别的各种分子表示的分子建模应用中具有特殊的前景。

       值得引起注意的是,对称在GDL中是一个至关重要的概念,因为它包含了与操作(转换)相关的系统属性,如平移、反射、旋转、缩放或排列。分子系统(及其三维表示)可以被认为是欧氏空间中的对象。在这样的空间中,人们可以应用几种对称操作(转换),它们(i)针对三个对称元素(即线、面、点)执行,(ii)是刚性的,也就是说,它们保持所有原子对之间的欧氏距离(即等距)

       欧几里得变换如下:

1、旋转:物体相对于某一给定点的径向方向的运动;

2、平移:物体的每一点在给定方向上移动相同距离的运动;

3、反射:通过点(反转)、直线或平面(镜像)将对象映射到自身。

① 旋转;② 平移;③ 反转反射;④ 镜像反射

       这三种变换及其任意有限组合都包含在欧氏群中[E(3)]。特殊的欧氏群[SE(3)]只包括平移和旋转。而一般情况下分子在SE(3)基团中总是对称的,也就是说,它们的固有性质(如生物和物理化学性质,以及平衡能)对坐标旋转和平动及其组合是不变的。但有些分子是手性的,也就是说,它们的一些(手性)性质取决于它们的立体中心的绝对构型,因此对分子反射不恒定。手性在化学生物学中起着关键作用,如一些药物的对映体表现出明显不同的药理和毒理学性质。

       对称性经常以等变性与不变性来表达任何数学函数相对于变换T(例如旋转、平移、反射或排列)的行为。这里的函数F(X)是一个给定分子的神经网络F,输入X后,F(X)可以对T进行等变变换、不变变换或不变换:

1等变性:通俗来说,对于一个函数,如果对其输入施加的变换也会同样反应在输出上,那么这个函数就对该变换具有等变性;

       e.g.: 假设变换是将图像向右平移一段距离,函数是检测一个人脸的位置(比如输出坐标),那么先将图片像右移,接着我们在原图偏右的位置检测到人脸;或是我们先检测到人脸, 然后再将人脸往右移一点。这二者的输出是一样的,与我们施加变换的顺序无关。

2不变性:通俗来说,对于一个函数,如果对其输入施加的某种操作丝毫不会影响到输出,那么这个函数就对该变换具有不变性;

       e.g.: 假设函数是检测图像中是否有红色, 此时如果我们的变换是旋转/平移, 那么这些变换都不会对函数结果有任何影响。

3、通俗来说,对于一个函数,如果对其输入施加的变换与其输出上的变换不一致时,那么这个函数就对该变换既不具有等变性,又不具有不变性;

       等变性与不变性的概念也可用于从给定的分子表示中获得的分子特征,这取决于它们在对分子表示进行转换时的行为。例如,许多分子描述子通过设计后对分子表示的旋转和平移是不变的,例如Moriguchi辛醇-水分配系数,它只依赖于特定分子亚结构的出现进行计算。神经网络提取的分子特征的对称性既取决于输入分子表示的对称性,也取决于利用的神经网络的对称性。许多相关的分子性质(如平衡能、原子电荷或物理化学性质如渗透性、亲脂性或溶解度)对某些对称操作也是不变的。因此,在许多化学任务中,设计在预先定义的对称组作用下等价变换的神经网络是很有必要的。如果目标性质在分子的对称变换过程中发生改变(例如,在手性分子的反转过程中手性性质发生改变,或在分子的旋转过程中矢量性质发生改变),则会出现例外。在这种情况下,等变神经网络的归纳偏置将不允许对称转换分子的分化。

       虽然神经网络可以被认为是单变量函数近似器[28],但融合合理的几何信息(几何先验)等先验知识已经发展成为神经网络建模的核心设计原则。通过整合几何先验,GDL可以提高模型的质量,并绕过与强制数据进入欧氏几何相关的几个瓶颈(例如特征工程)。此外,GDL提供了新的建模机会,例如在低数据状态下的数据增强。

三、Method

       GDL在分子系统中的应用具有挑战性,部分原因是有多种有效的方法来表示相同的分子实体。分子的表征可以根据它们不同的抽象层次以及它们所捕获的物理化学和几何方面进行分类,同时GDL提供了用相同分子的不同表示形式进行实验的机会,并利用它们内在的几何特征来提高模型的质量。此外,由于其特征提取(特征学习)能力,GDL已多次被证明在为任务提供有关分子特性的洞察方面是有用的。这里将举例描述最流行的分子GDL方法及其在化学中的应用,并根据用于深度学习的各自分子表示进行分组:

1、分子图

       图是表示分子结构最直观的方法之一。任何分子都可以看作是一个数学图

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/462311
推荐阅读
相关标签