赞
踩
(1)背景
新药的研发既需要较长的时间,也需要较高的成本。于研究人员来说,在合理的时间内 从大量可合成化合物中 找到最有希望的 候选化合物 仍然是一个挑战。因此可以借助AI分子生成模型。
(2)目的
作者回顾了一些AI分子生成模型,并讨论每种模型的优缺点。同时,作者描述了如何将强化学习(RL)算法应用于生成式人工智能,以便在 更好地利用分布式硬件 的同时 获得更真实的效果。
图为RNN分子生成模型的工作流:
①将分子转化为SMILES串;
②使用one-hot coding和embedding来处理字符串,把它们拼接起来;
③然后将它们输入到RNN模型中,得到SMILES串;(可理解为:RNN来预测要生成的下一个原子或者化学键是啥)
④最后将SMILES串变回分子。
在以上过程中学习模型参数,对某一部分进行改变即可得到新分子。
在此模型中,分子被视为序列串,生成分子的任务被转换为生成特殊序列。由于输入和输出都是序列,此类相关序列模型被称为“seq2seq”。
① SMILES串非唯一表示,相同的分子结构可以转换成许多SMILES串,如工作流图左下部分;
② seq2seq模型通常关注序列的顺序,因此对一些RNN分子生成模型,它们可能只学习SMILES语法规则,而不是分子结构的知识。
③SMILES串的目的是将分子结构压缩成一维字符串,而不是捕捉分子的相似性,因此具有相似化学结构的分子可以被编码成非常不同的SMILES字符串,如下图。
在这个图中&
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。