赞
踩
2021SC@SDUSC
关于ProtT5-XL-UniRef50(称为ProtT5-XL-U50)的重要注意事项:所有性能仅使用从底层T5模型的编码器侧提取的嵌入件进行测量,如下所述。此外,还以半精度模式(model.half())进行了实验,以加快嵌入生成的速度。以半精度运行时,在任何实验中均未观察到性能下降。
将NLP技术应用到蛋白质中,为以一种自我监督、数据驱动的方式从蛋白质中提取信息提供了新的机会。新的蛋白质表达可能补充现有的解决方案,当将进化信息和机器学习结合起来时最为成功。在这里,我们首次展示了从蛋白质LMs输入到相对简单的监督学习模型的嵌入可以在不使用EI和不太优化监督训练管道的情况下达到类似的性能水平。然而,与使用进化信息的传统模型相比,蛋白质LM的推理速度的提高十分显著,以至于30年来首次在商品硬件上实现大规模预测。例如,性能最好的型号ProtT5-XL-U50可以在Nvidia TitanV上运行,vRAM为12GB(详情请参阅方法)。
然而,考虑到这里描述的实验和在之前的工作中,我们可能会期望蛋白质LM在使用masked语言建模(或自回归前训练)时能够学习的上限。虽然这项工作明确讨论了达到这一极限的可能性,但我们不能最终提供一个答案。我们可以得出三个发现。
(1)更少噪声和冗余语料库(如UniRef50)在更大但噪声和冗余语料库(如BFD)上得到改善。
(2)在资源有限的情况下,最重要的是将资源用于足够长的训练,因为在训练前看到的样本数量与下游任务的预测性能相关。最终,这似乎源于足够的模型大小和样本吞吐量之间的权衡。
(3)双向模型优于单向模型。然而,考虑到蛋白质LM在回顾这项工作的过程中所取得的进展,我们还没有看到任何证据表明蛋白质LM达到了极限。
以下问题的答案可能会推动现状。
(1) BERT或Albert提供的辅助任务,如下一句或句子顺序预测,是否适合蛋白质序列?一个建议可能是使用结构信息或进化关系。
(2)变压器蛋白LM训练的效率是否可以通过稀疏变压器或Reformer模型最近引入的局部敏感哈希(LSH)或线性变压器最近的工作来提高?
(3)为了获得更好的结果,哪些数据集应该最优地使用预处理、简化和训练批量抽样?
(4)将受监督的培训管道调整到特定的任务,会有多大的改进?
我们将二级结构或定位预测更多地作为展示蛋白质LM成功的代理,而不是作为一个独立的末端。
(5) EI和AI的结合会带来未来最好的蛋白质预测,还是单蛋白质预测的优势(速度、精度)胜出?
事实上,单蛋白质预测也有更精确的优势,因为它们不提供蛋白质家族的隐含平均值。
总的来说,我们的结果表明,将用于训练蛋白质LM的HPC解决方案与随后的监督预测方法的训练相结合,可以扩大到该领域迄今为止使用的最大数据集。只有结合这些不同的结构域,我们才能证明蛋白质LM可以达到与最先进的结合EI和AI的方法相同的性能,而无需利用多重序列比对。
在这里,我们引入了许多新的蛋白质语言模型(LM),并证明从最后的LM层提取的嵌入捕获了与蛋白质结构和功能相关的约束。
尽管没有使用有史以来最大的蛋白质LMs数据库(BFD),也不是非常大的模型产生了信息量最大的嵌入,但在相当多的多样性上进行足够长的预训练有一定效果,而且最近的LMs表现最好。
使用嵌入作为相对较小的CNN/FNN模型的单独输入,无需太多优化,就可以获得在预测二级结构、定位和将蛋白质分类为膜/其他方面具有竞争力的方法。
事实上,基于LM嵌入输入的小型监督解决方案第一次达到了对基于多序列对齐(MSA)输入的最新(SOA)方法的挑战的性能水平。相比之下,本文所介绍的模型从未使用过MSAs。当常规地将基于嵌入的蛋白质预测应用于大型数据集时,这可以节省巨大的费用,但它也为蛋白质特异性预测而不是家族平均预测开辟了一条道路。
最终,将三个不同但互补的领域(HPC、NLP和计算生物学)的优势结合起来,得到了进展。自我监督的预训练结合迁移学习挖掘了未标记数据的金矿,为现有问题的全新视角(和解决方案)打开了大门。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。