PubMed GPT：生物医学文本的特定领域大型语言模型_pubmedgpt

作者：小小林熬夜学编程 | 2024-04-03 21:11:59

踩

pubmedgpt

斯坦福大学基础模型研究中心 (CRFM) 和 MosaicML 宣布发布 PubMed GPT，这是一种专门构建的 AI 模型，经过训练可以解释生物医学语言。
大型语言模型 (LLM) 为通用自然语言生成、图像生成、语音合成以及这些应用程序的多模式组合提供了惊人的功能。但是，当我们知道它们将用于特定行业的情况时，我们还能做些什么吗？

今天，我们宣布了 MosaicML 与斯坦福大学基础模型研究中心 (CRFM)的合作成果，该成果展示了特定行业的大型语言模型的能力——特别是针对生物医学领域。使用MosaicML 云平台，CRFM 对来自PubMed的生物医学数据进行了 2.7B 参数 GPT 训练，在美国医学执照考试 (USMLE)的医学问答文本上取得了最先进的结果——突出了特定领域的承诺实际应用中的语言生成模型。

“我们很高兴发布一种在 PubMed 上训练的新生物医学模型，这是构建可以支持生物医学研究的基础模型的第一步。” — Percy Liang，斯坦福大学 CRFM 主任

我们的工作强化了现有研究，表明在特定领域数据上训练的标准 LLM 可以胜过通用模型，并与专家设计的特定领域模型架构竞争。在这篇博文中，我们概述了总体方法、我们的结果和我们的要点：自定义 LLM 是一个交钥匙解决方案，适用于任何拥有特定领域数据的组织，而不仅仅是少数拥有大量数据集和巨大计算预算的公司。在我们开始之前，提醒一下：该模型仅用于研究目的而开发，不适合生产。

PubMed GPT 食谱

模型。PubMed GPT 2.7B 基于具有 2.7B 参数和 1024 个标记的最大上下文长度的HuggingFace GPT 模型（仅解码器转换器）。它使用在 PubMed Abstracts 上训练的自定义生物医学分词器，

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/356630