当前位置:   article > 正文

HuatuoGPT, Towards Taming Language Models To Be a Doctor 阅读笔记_huatuogpt towards

huatuogpt towards

论文地址: https://arxiv.org/pdf/2305.15075.pdf

code:GitHub - FreedomIntelligence/HuatuoGPT: HuatuoGPT, Towards Taming Language Models To Be a Doctor. (An Open Medical GPT)

摘要: 在本文中,我们提出了一个用于医疗咨询的大型语言模型(LLM) HuatuoGPT。HuatuoGPT的核心配方是在监督微调阶段利用ChatGPT的提炼数据和医生的真实数据。这不仅是因为纯粹使用chatgpt提炼的数据可能会导致“模型崩溃”,还因为来自医生的真实世界数据将与chatgpt提炼的数据相补充。ChatGPT的回答通常是详细的,表达得很好,流利的,并且遵循指导,但在许多方面它不能像医生一样表现。用于交互式诊断。因此,额外的医生数据可以驯服一个精炼的语言模型,使其表现得像医生一样。为了协同这两个数据源的优势,我们引入了RLMF(混合反馈强化学习),其中训练奖励模型以使语言模型与两个数据源(ChatGPT和医生)带来的优点保持一致。实验结果(GPT-4评估、人体评估和医疗基准数据集)表明,华图医学在开源llm之间进行医疗会诊方面达到了最先进的水平。值得注意的是,通过使用额外的真实世界数据和RLMF,蒸馏语言模型(即HuatuoGPT)在大多数情况下优于其教师模型(即ChatGPT)。

1介绍

医学是人类生存的重要支柱,其有效性在很大程度上依赖于专业人员的专业知识和经验。然而,像ChatGPT这样的大型语言模型(llm)的出现预示着这种经验驱动领域的变革时代(Wang et al, 2023a)。llm通过利用回顾性数据和生成前瞻性来学习和模仿人类语言输出。考虑到法学硕士和医学的经验驱动型基金会的融合,我们认为法学硕士在改善医疗咨询和诊断支持方面具有巨大的潜力。向ChatGPT学习?近期研究(Taori et al ., 2023;Chiang et al ., 2023;Chen等人,2023)表明,从ChatGPT中提取可以使语言模型在一些常见场景中具有流畅的聊天功能。然而,与领域专家相比,ChatGPT,甚至GPT-4在垂直领域(如医学)中表现出相对较差的性能。造成这种现象的一个原因是,ChatGPT的注释者没有达到专家水平,缺乏医生所拥有的医学知识的熟练程度。因此,纯粹从一个糟糕的老师(即ChatGPT)那里提取医学法学硕士学位是有问题的,就像流行的一般民主化的法学硕士那样(Chiang等人,2023;Chen et al ., 2023)。此外,纯粹使用chatgpt提取的数据可能会导致“模型崩溃”(Shumailov等人,2023),因此限制了医学法学模型的推广。向医生学习?另一方面,当一个模型只从现实世界的医疗诊断对话中学习时(Wei et al, 2018;Xu et al ., 2019;夏等,2020;Zeng等人,2020),由于医生在诊断过程中面临的时间限制,它产生的反应过于简洁,缺乏必要的细节水平,导致信息的表达过于浓缩。与ChatGPT的回答相比,医生的回答在耐心、细节水平和逻辑组织方面不够友好。ChatGPT的回答详细且呈现良好(例如,有组织良好的段落、表格和要点)。为了克服上述问题,这项工作的核心方法是利用来自医生和医生的真实数据

从ChatGPT中提取数据。我们将我们的型号命名为华图ogpt1,主要是为中国人设计的。从技术上讲,我们提出了一个两阶段的培训框架,充分利用了ChatGPT和医生的优势。第2节将进一步讨论来自医生的真实医疗数据与来自ChatGPT的提炼数据之间的互补性。
在监督微调(SFT)阶段,我们利用来自医生的真实数据和来自ChatGPT的提炼数据。从ChatGPT中提取的数据被用来驯服语言模型,以遵循医疗指示并流利地交谈。额外的真实医疗数据不仅将医学知识注入到语言模型中,而且还驯服了语言模型,使其能够像医生一样进行医学诊断。此外,通过角色增强促进和ChatGPT抛光,两个数据源相互对齐。在SFT阶段之后,为了进一步利用ChatGPT和医生的优势,同时减轻他们的弱点,我们提出了混合反馈强化学习(RLMF),灵感来自RLHF (Ouyang et al ., 2022)和RLAIF (Bai et al, 2022)。它用于奖励生成的响应,这些响应不仅对患者友好(从ChatGPT学习,具有更好的演示质量、详细、指导能力和流畅的聊天),而且像医生一样(从医生那里学习,具有专业和交互式的诊断)。我们提出了一种包括人工和自动评估的医学法学硕士综合评估方法,涵盖单轮和多轮医学咨询。实验结果表明,我们的HuatuoGPT在自动和手动评估方面都优于现有的开源医学llm和ChatGPT。更令人印象深刻的是,我们的模型在自动评估和医生评估方面都超过了gpt -3.5 turbo的性能。
此外,HuatuoGPT在CmedQA (Zhang et al ., 2018)、webmedQA (He et al ., 2019)和huatu26m (Li et al ., 2023a)数据集等多个医疗基准中实现了最先进(SOTA)的零射击性能。我们将在https://github.com/ FreedomIntelligence/Hua

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/558955
推荐阅读
相关标签
  

闽ICP备14008679号