赞
踩
论文:https://arxiv.org/pdf/2403.03640.pdf
代码:https://github.com/FreedomIntelligence/Apollo
1. 多语言覆盖和优化
Apollo:专门针对全球六种最广泛使用的语言进行优化,包括英语、汉语、印地语、西班牙语、法语和阿拉伯语。这种优化确保了模型能够更准确地理解和生成这些语言中的医学信息,尤其是在处理专业术语和地区特定的表达方式时。
普通医学大模型:可能主要针对英语或其他单一语言进行优化,对于非英语的医学文献和信息处理可能不够精准,特别是在专业术语和表达习惯方面。
2. 数据隐私和安全性
Apollo:通过代理调优(Proxy Tuning)方法,可以在不直接处理敏感医疗数据的情况下提升模型的多语言医疗处理能力。这种方法有助于保护患者数据的隐私和安全。
普通医学大模型:可能需要直接接触敏感的医疗数据来进行训练和优化,这在一定程度上增加了数据泄露和滥用的风险。
3. 地方性医疗知识的整合
Apollo:通过收集和整合多语言医疗数据,Apollo模型能够更好地融合不同地区的医疗实践和知识。这对于提供符合当地医疗需求和文化背景的建议和信息非常重要。
普通医学大模型:可能缺乏足够的多语言和地区特定的医疗数据,导致在非主要语言或地区的医疗知识处理上存在不足。
4. 沟通效率和接受度
Apollo:通过对多种语言进行优化,Apollo能够提高医疗信息的沟通效率和患者的接受度。这在提供跨文化和跨语言的医疗服务时尤为重要。
普通医学大模型:可能在跨语言沟通和文化适应性方面存在局限,影响医疗服务的有效性和患者满意度。
Apollo通过针对多语言覆盖、数据隐私保护、地方性知识整合和沟通效率的优化,解决了普通医学大模型在这些方面的问题和不足,提高了模型在全球多语言医疗信息处理方面的性能和适用性。
为了找出答案,我们做了两组实验:
单语言训练:我们分别用英语、中文、法语、西班牙语、阿拉伯语和印地语的医学数据训练模型,每种语言单独训练一个模型。
多语言训练:我们将上述六种语言的医学数据混合在一起,用这些混合数据训练另一个模型。
实验结果:
结论:
多语言医学数据对提高医疗LLMs的性能是有益的。
也就是说,将不同语言的医学知识结合起来,可以使模型更全面地理解和生成医学信息。
但也存在潜在风险:
混合多语言的医学数据对模型的性能有显著提升,但如何平衡和整合这些多样的信息,仍是我们接下来需要关注的问题。
数据处理: 通过将原始预训练语料重写为问答对,旨在不破坏原有模型能力的前提下,提高其医学能力。
可以保留原有的知识格式和精确度,同时增加模型处理医学信息的能力。
目的:Apollo项目设计小型模型,这样的模型可以在没有连接互联网的情况下,直接在医疗设备上使用。
这对医生和医疗人员是非常有帮助的,因为它们能够即时处理和解析医疗信息,从而提高工作效率。
优点:对于那些没有能力运行大型模型的研究人员,小型模型是理想的选择。
它们不仅运行成本低,而且便于研究人员进行实验,探索新的研究方向。
问答对重写:通常情况下,预训练是在大量的文本上进行,不特定于任何格式。
Apollo项目采用的方法是将这些文本转化成问答对的形式,即针对文本段落产生相关的问题和答案。
这样做的好处是,模型可以更好地学会在医疗领域内提供精确的信息。
优先采样:这是一种数据选择方法,确保模型在训练过程中更多地关注某些数据。
通过为不同的数据设置不同的优先级,模型能更有效地从重要的信息中学习。
数据项优先级:这里的“数据项优先级”指的是不同阶段数据在训练中的重要性。
预训练阶段的数据项优先级较高(设置为16),表明在这个阶段,模型会更频繁地看到这些数据。
而在指令调优阶段,优先级较低(设置为2),表示这些数据会比预训练数据更少地出现。
批量大小:这决定了每次训练更新中使用多少数据样本。
Apollo项目使用的是256,这是一个适中的批量大小,既不会消耗太多的计算资源,也能确保有效的梯度估计。
学习率:学习率决定了每次模型更新时,参数变化的幅度。
1e-4是一个较小的学习率,使得训练过程稳定,避免了过大的更新可能导致的训练不稳定。
余弦调度器:这是一种调整学习率的策略,学习率会根据一个余弦函数随训练时间变化。
预热率0.03意味着初始学习率会在训练初期逐渐增加,直到达到设定的学习率。
Apollo项目通过精心设计的训练策略,开发出了一个既节省计算资源又能有效处理多语言医疗信息的小型模型。
这个模型可以帮助医疗专业人员在各种环境中更好地利用人工智能,尤其是在资源受限的情况下。
代理调优是一种使用小型模型的输出来引导大型模型进行预测调整的技术,它能够在不直接更改大模型参数的情况下,提高大模型在特定任务上的表现。
这种方法利用了一个小型的模型作为代理,来引导大模型的输出,从而在特定任务上获得更好的性能。
如何工作:
小型模型的训练:
输出转移:
代理调优:
优点:
限制:
核心问题:是否可以通过代理调优(Proxy Tuning)来增强大型模型在处理多语言医疗数据时的能力?
解法:使用代理调优来增强大型基础模型的多语言医疗能力。
子解法1:使用小型预训练模型进行特定任务的微调。
子解法2:大型基础模型应用小型模型的logit偏移量来调整预测分布。
子解法3:在实际应用中测试多语言数据集。
假设我们有一个大型的多语言医学问答模型,比如Qwen-7B。
这个模型非常强大,知识面广泛,但是它可能在针对特定语言的医学术语和地方性治疗方案上不够精确。
现在,我们想让Qwen-7B更好地服务于讲中文的医生和患者,尤其是在使用中医治疗方案方面。
解法:通过代理调优增强Qwen-7B在中文医学数据上的性能。
子解法1:微调小型模型
子解法2:使用小型模型指导大型模型
子解法3:在真实世界数据上验证
我们可以得到一个在中文医学问答,特别是中医治疗知识方面表现优异的Qwen-7B模型。
这样一来,模型就能更好地服务于中文医疗领域的用户,例如推荐适当的中药或解释病症与中医理论之间的关系。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。