赞
踩
目前大模型应用已经非常广泛,但在分子领域依然进展不大,为了提高药物发现的速度与质量,为医学界提供新的技术支持,研究人员正尝试将大型语言模型的强大能力扩展到分子领域。
今天要分享的论文正是关于大模型分子领域应用的,建议该研究方向的同学仔细研读,论文原文与代码已经整理好了,后续有新的技术进展也会更新在这里,大家可以关注收藏一下!
标题:语言模型可以学习复杂的分子分布
内容:分子的深度生成模型越来越受欢迎,这些模型经过相关数据集训练后,可用于搜索化学空间。生成模型的下游应用,即设计新功能化合物的逆过程,依赖于它们学习训练分子分布的能力。最简单的例子是循环神经网络形式的语言模型,使用字符串表示生成分子。
语言模型的初期应用显示了其强大能力,尤其是最近的研究表明其在低数据量状况下的效用。本文研究了简单语言模型学习更复杂分子分布的能力。为此,通过构建更大、更复杂的分子分布数据集,引入了几个挑战性的生成建模任务,并评估语言模型在每个任务上的表现。结果显示语言模型是强大的生成模型,能够熟练学习复杂的分子分布。它们可以准确生成:ZINC15中最高评分惩罚式LogP分子的分布、多模态分子分布,以及PubChem中最大分子的分布。
标题:Chemformer:计算化学的预训练Transformer
内容:结合Transformer模型和简化分子线性输入系统(SMILES)最近被证明是解决化学信息学任务的一个强大组合。然而,这些模型通常是专门为单一应用开发的,训练起来非常耗资源。在本工作中,作者提出了Chemformer模型,这是一个基于Transformer的模型,可以快速应用于序列到序列和区分化学信息学任务。在直接合成和逆合成预测基准数据集上,作者发表了最先进的top-1准确率。作者还改进了现有方法在分子优化任务上的表现,并表明Chemformer可以同时优化多个区分任务。
标题:MolGPT:使用Transformer-Decoder模型进行分子生成
内容:将深度学习技术应用于分子的全新生成,即所谓的逆分子设计,在药物设计中获得了巨大吸引力。以SMILES符号表示分子的字符串字符使得最先进的自然语言处理模型(如Transformer)可以应用于分子设计。受生成式预训练(GPT)模型的启发,这种模型已被证明能够成功生成有意义的文本,作者在本研究中使用掩蔽自注意力机制训练了一个Transformer解码器,以进行类药物分子的下一标记预测任务。
LigGPT模型表现优于其他先前提出的生成有效、唯一和新颖分子的现代机器学习框架。此外,作者证明该模型可以条件化训练以优化生成分子的多个属性。作者展示了该模型可以生成具有所需分子框架以及所需分子属性的分子,方法是将这些结构作为条件传递,这对铅优化以及全新分子设计都有潜在应用。
标题:域无关的分子生成与自反馈
内容:生成具有期望属性的分子最近获得了巨大的普及,这彻底改变了科学家设计分子结构的方式,为化学和药物设计提供了有价值的支持。然而,尽管语言模型在分子生成方面具有潜力,但它们面临许多挑战,如生成语法或化学上有缺陷的分子,领域范围狭窄,以及由于标注数据或外部分子数据库匮乏而难以创建多样且方向可行的分子等。为此,作者提出了MOLGEN,这是一个专门用于分子生成的预训练分子语言模型。
MOLGEN通过重建超过1亿个分子的SELFIES,获得了内在的结构和语法洞察,同时通过域无关的分子前缀调谐促进不同域之间的知识转移。此外,作者提出了一种自反馈范式,以激发预训练模型与产生具有理想属性分子的最终目标保持一致。大量实验证明,MOLGEN在众所周知的分子生成基准测试中取得了卓越的性能。
标题:一种深度学习系统桥接分子结构和生物医学文本,其理解能力可比人类专业人员
内容:为了加速生物医学研究过程,开发了深度学习系统来通过读取大规模生物医学数据自动获取分子实体的知识。受到人类通过阅读分子结构和生物医学文本信息两方面内容来学习深层分子知识的启发,作者提出了一个知识型机器阅读系统,该系统将这两类信息桥接在一个统一的深度学习框架中,以进行全面的生物医学研究辅助。
通过在不同信息源内部和之间无监督地掌握元知识,该系统可以促进各种实际生物医学应用,包括分子性质预测、生物医学关系提取等。实验结果显示,该系统甚至在分子性质理解能力方面超过了人类专业人员,并且也揭示了它在促进未来自动药物发现和文档方面的潜力。
标题:分子与自然语言之间的转换
内容:作者提出了MolT5,这是一个在大量无标注的自然语言文本和分子字符串上进行自监督预训练模型的框架。MolT5允许新的、有用的和富有挑战性的传统视觉-语言任务类比,比如分子字幕和基于文本的分子de novo生成(统称为分子和语言之间的转换)。由于MolT5在单模态数据上预训练模型,它有助于克服化学领域数据稀疏的缺点。
此外,作者考虑了几种指标,包括一种新的交叉模态嵌入度量,来评估分子字幕和基于文本的分子生成任务。作者的结果表明,基于MolT5的模型能够生成高质量的输出,既包含分子也包含字幕。
标题:通过多任务语言建模统一分子和文本表达
内容:最近的神经语言模型在化学领域也取得了成功,为分子设计和合成计划中的经典问题提供了生成式解决方案。这些新方法有可能催生科学发现的数据驱动自动化的新时代。然而,每个任务通常仍需要专门的模型,这导致了对特定问题的微调以及忽视任务间的关系。这个领域的主要障碍是自然语言和化学表示之间缺乏统一的表示,使人机交互变得复杂和受限。
作者提出了第一个可以同时解决化学和自然语言领域广泛任务的多域多任务语言模型。该模型可以同时处理化学和自然语言,而无需在单个领域进行高昂的预训练或任务特定模型。有趣的是,跨领域共享权重明显改进了相对于最先进的单领域和跨领域基准的模型。特别是,跨领域和任务共享信息给予了交叉领域任务很大的改进,其幅度随规模的增加而增大。
标题:Mol-Instructions:一个大规模生物分子指令数据集,用于优化大语言模型在生物分子领域的表现
内容:大型语言模型(LLM)具有卓越的任务处理能力和创新输出,在各个领域取得了重大进展。然而,它们在专业领域如生物分子研究中的能力仍有限。为解决这个问题,作者提出了MolInstructions,这是一个精心整理的全面指导数据集,专门设计用于生物分子领域。
MolInstructions 由三个关键组成部分组成:分子导向指令,蛋白质导向指令和生物分子文本指令,每个部分都经过整理,以增强LLM关于生物分子特征和行为的理解和预测能力。通过对代表性LLM的大量指导调优实验,作者强调了MolInstructions增强大型模型在复杂的生物分子研究领域适应性和认知能力的潜力,从而推动生物分子研究社区的进步。
标题:DrugChat: 探索在药物分子图谱上实现类ChatGPT的功能
内容:一种类似ChatGPT的药物化合物分析系统可能成为药物研发领域的游戏规则改变者,能够加速药物发现,增强对结构-活性关系的理解,指导优化 Lead化合物,辅助药物再利用,降低失败率并精简临床试验。在本研究中,作者尝试通过开发原型系统DrugChat来实现药物分子图谱上的类ChatGPT功能。
DrugChat的工作方式类似ChatGPT,用户上传化合物分子图,并就该化合物提出各种问题,DrugChat 将以多轮交互方式回答这些问题。DrugChat系统由图神经网络、大型语言模型和适配器组成。图神经网络对化合物分子图进行编码。适配器将图编码转换为语言模型可接受的表示。语言模型负责生成回答。所有组件都是端到端训练的。
关注下方《学姐带你玩AI》
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。