当前位置:   article > 正文

PubMed GPT : 用于生物医学文本的特定领域大型语言模型

medgpt

“我们很高兴发布一种在PubMed上训练的新生物医学模型,这是构建可支持生物医学研究的基础模型的第一步。”——CRFM主任Percy Liang

近日,斯坦福基础模型研究中心(CRFM)和MosaicML联合开发了PubMed GPT模型,一种经训练可以解释生物医学语言的大型语言模型

44c09af2582705257dfcc186ee11eae3.png

目前的大型语言模型(LLM)通常使用于自然语言合成、图像合成及语音合成等,而已知在特定行业的应用很少。本文所要介绍的PubMed GPT即展示了特定行业大型语言模型的能力,尤其在生物医学领域。通过MosaicML云平台,CRFM的开发者在PubMed的生物医学数据集上训练了一个生成式预训练模型(GPT)。结果表明,特定领域的语言生成模型在实际应用中将会有很好的发展前景,同时,LLM也展现出更加优秀的性能和竞争力。注意:目前此模型仅用于研究开发,不适合生产。

PubMed GPT

模型。PubMed GPT 2.7B基于HuggingFace GPT模型,具有2.7B的参数和1024个标记的最大上下文长度。尽可能简单的设计展示了现有LLM训练方法的强大功能。

数据。采用Pile数据集的部分——PubMed Abstracts和PubMed Central。

计算。开发者选择在50B的令牌上多次训练PubMed GPT,达到一个较长的计算周期(300B)。结果表明,在数据受限的情况下仍可训练出优秀的LLM模型。

MosaicML云平台

MosaicML云。基于MosaicML云软件栈,开发者在具有128个NVIDIA A100-40GB GPU、节点间1600Gb/s网络带宽的集群上训练PubMed GPT,总训练时长约6.25天。

Composer库。由于MosaicML开源Composer库的高效性和包容性,开发者使用Composer库以及它的FSDP集成来训练模型。

流数据集。为快速、灵活且廉价地管理自定义训练数据集,开发者使用MosaicML的新StreamingDataset库来管理100GB多文本的训练数据集。

评估

开发者在几个问答基准上对PubMed GPT进行了评估。例如下面的一个医学问题摘要基准:

997d452376430f7fba0125f0978ac569.png

其对患者的疑问查询(其中会包含歧义、拼写错误等方面的信息)进行处理,并以清晰正确的格式呈现给医生。

5b772334be05841e1dc7f8c974bdcbac.png

同时开发者将结果与5个模型进行了比较(如上图):DRAGON、GPT-Neo 2.7B、Galactica、BioLinkBERT、PubMedBERT。结果证明:

1、LLM非常全能,在特定领域中从头训练时其具有与专业设计的系统相当的性能;

2、针对特定领域数据的预训练胜过通用数据;

3、专注模型可以用较少的资源获得高质量结果。

总结

PubMed GPT的结果只是生物医学文本及其他领域研究的第一步,往后仍需要更多研究者来开发更加先进的成果。而且目前只是概念验证,最终的希望是在未来出现值得信赖的交互式AI系统,在与人类专家进行筛选的同时也促进可靠的交互。

参考资料

https://www.mosaicml.com/blog/introducing-pubmed-gpt

往期精品(点击图片直达文字对应教程)

96659cd295db39ce40fdacae3a97f422.jpeg

22d83abdbfc2cfa5493e9147e9d23e51.jpeg

59ecd27502cfbe7bd63ee9f5c8331b0c.jpeg

60ce187a2ba225509cd74760932a0822.jpeg

3218b94d17672e667f2b8142295594a6.jpeg

74b54eaf93b4274a5001decbfd34442b.jpeg

afa01e4fc3e83de819f9df91464aa840.jpeg

e2f12ebf17ccd10adb65f506e9c68cbc.jpeg

4015e1ed39dea160e602538e4f16d71f.jpeg

3bb3aced96ecc3db61d6f9aad67ca88a.jpeg

24adcb979224374e86d2e7bcb9d24494.jpeg

a1ffc18ce021ce18d38ee96bbf17cbdc.jpeg

fd460214893cce577ef49a6e81b2dba6.png

df4eabafceed6c611b3d9cd18cca2cb5.png

a408f5037167c2c4fe4b42b8873f7e90.png

67e767966332db718df7e37c316e26ee.png

722b0ad11f864b3fc87bc2cc8d41e13a.jpeg

453fd2a49813566346eb6867512f0aef.jpeg

7768285daf90a0d79ee6a48a437949fd.jpeg

738b2713d28ad1d20e91d66faefb572a.jpeg

973060372cd523e1238572d1a4f9e8bd.png

b1bb7473e5e4e50e326ddf8f5bbc0ec0.png

e80c6220ba68c1b3dbf5095eb78344e5.jpeg

3f929990cd840ff7c362077871a5dbaf.png

1466e78682394d51a3a2a78145163ec1.png

8ab2cf11790008250e093ee427c2588e.jpeg

ba091c3f40e96c20c48cd024322a6c31.png

cc52909b46f38fce8536a6bd5e902251.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

24d7f7c14de06c9328e730ebade96cbf.jpeg

cc391bf4252e357831945f5d0eb05d62.jpeg

d003e71c3f1e85ddecb3f29fe5f48f5c.png

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/356631
推荐阅读
相关标签
  

闽ICP备14008679号