赞
踩
分子表征过程是将真实存在于物理世界的分子使用数学的方式表示出来。对于早期QSAR研究,传统机器学习模型只能对目标关系进行线性和简单的非线性建模。为了能够使模型学到分子的化学结构与分子的物理化学性质之间的关系,对分子的表征往往需要专家进行手动描述,核心是设计特定的分子描述符对分子进行表示。
AI的兴起与发展为相关研究领域带来了改变,从早期的工作至今,研究人员一般用SMILES表示分子,SMILES作为化学语言并天然地与自然语言具有相似性,可以直接被应用在成熟的NLP方法中。因此,SMILES逐渐成为基于AI的分子研究中最被广泛使用的1D表示方式。
但是SMILES的简易性牺牲了分子结构的直观表示,分子本身是3D结构,三维信息由键与键的角度,二面角以及键长决定。由于键可旋转,分子的三维构象是不固定的。现阶段人们习惯使用简化的2D拓扑graph结构记录空间信息。尽管SMILES可以完整复原分子的2D结构,但实验证明,使用SMILES作为输入,模型还是不容易学习到分子结构与性质的内在关系。因此,兴起了分子graph的研究,graph直观展示了原子和键的空间联系。
预训练源于NLP,句子由不同的词组成,分子由不同的原子组成。NLP研究的第一步是将离散的词转为恰当的数值表示。在早期研究中,为了在数值上表现出词与词的离散,并避免数值大小对词的语义的影响,研究人员提出one-hot编码。这种编码完全忽略了近义词和反义词的关系。
为了体现词与词的距离,提出word2vec,一定程度上算是最早的预训练工作,此时形成一种思想:将一个特定的任务分成共性学习(预训练)和特性学习(微调),并用大规模的非该任务数据进行共性学习。
word2vec只能固定表达每个词的同一种语义,没有考虑变化万千的语境。从而出现了BERT,GPT等方法。这些方法将对于词的理解存储在模型内部,是一种隐式的embedding。
利用大规模无标签数据和自监督任务使模型学习数据共性信息的思想,也被药物发现领域关注。从早期用word2vec思想进行分子表征(例如Mol2vec),到中期沿用隐式embedding预训练思路开展分子预训练,到最新的针对分子特性开发预训练方法,已经有大量分子预训练工作被推出。
BERT首次提出MLM,通过将样本中的任意部分随机mask,再用transformer基于样本中未mask部分还原mask部分,可以有效挖掘样本上下文直接的支撑关系,进而学习语义信息。SMILES-BERT是将MLM应用到SMILES上的案例。除了SMILES,也诞生了基于分子graph的MLM工作,包括对于原子的mask(mask选定的原子和其直接有键连接的原子)和对于键的mask(分子中被选定的键与两端的原子被mask,以及这些原子连接的键也被mask)。
MLM需要根据被mask的部分的上下文对mask部分进行复原,模型内部通常需要双向运算,即每个token要观察到其前面与后面的token。
这种双向运算在生成任务中的表现会受限,对于生成任务,由于新生成的部分依赖已生成部分,并没法观测到未来生成的部分,因此是单向运算,因此,自回归模型脱颖而出。
个人理解:一定程度上,BERT适合翻译,GPT适合对话。
也有与传统自回归模型不同的模型,X-MOL利用了SMILES的不唯一性(同一个分子具有不同构象,也具有不同SMILES),通过分子的一个SMILES生成另一个SMILES。PanGu将数据类型扩展到graph,用graph生成SMILES。
对比学习是目前一类流行的自监督方法,理念为对数据样本进行扩增,使模型学习源自同一样本的扩增样本之间的相似之处,与源自不同样本间的差异之处,进而学习样本的共性信息。
对比学习的核心问题在于如何对样本扩增,在分子领域,不同的分子表示通常对应不同的扩增方式。MM-Deacon将分子的两种1D表示(SMILES和IUPAC)作为正样本,并最小化同一分子的embedding距离,最大化不同分子的embedding距离。
MolCLR对分子图进行三种随机修改,包括原子mask,键mask,以及子图remove,以此作为扩增的分子graph。
过去工作只考虑分子的拓扑信息,随后,研究人员加入空间几何信息对小分子进行进一步建模。
GeomGCL基于对比学习构建,但GeomGCL认为对分子的mask会影响分子的性质,因此使用两种样本:分子graph和分子几何表征。
GEM是完全针对分子几何性质的预训练工作。GEM接收分子graph作为输入,对分子内化学键的键长,键角进行预测,在局部结构层面对分子的几何特征进行学习。
还有方法利用化学知识构建预训练。MoLR利用化学反应信息和对比学习进行预训练。其认为化学反应的反应物与生成物具有等效关系。在MoLR的训练中,来自同一反应的反应物与生成物作为正样本,该扩增技术可以避免对分子结构的破坏。
MoLR虽然在理论上有更强的置信度,但化学知识本身是有标签数据,难以利用大规模无标签数据。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。