当前位置:   article > 正文

《XrayGLM:基于VisualGLM-6B微调训练对X光胸片进行医学诊断》学习分享与本地项目微调部署实践

xrayglm

XrayGLM据说是首个会看胸部X光片的中文多模态医学大模型,我最近也是因为关注这个所以就找时间学习了一下,顺便把学习资料对应记录分享一下。

官方提供了开源的项目,地址在这里,如下所示:

 最近,通用领域的大语言模型 (LLM),例如 ChatGPT,在遵循指令和产生类似人类响应方面取得了显著的成功,这种成功间接促进了多模态大模型的研究和发展,如通用领域的多模态大模型MiniGPT-4mPLUG-OwlMultimodal-GPTLLaVA ,然而,此类多模态大模型却很少出现在医学领域的研究中,阻碍了相关研究发展。visual-med-alpaca虽然在医学多模态大模型方面做出了一些很有成效的工作,然而其数据为英文诊断报告,不利于促进中文领域医学多模态大模型的研究发展。为此,我们开发了XrayGLM以解决上述问题。XrayGLM在医学影像诊断和多轮交互对话上显示出了非凡的潜力。

为了帮助大家上手学习掌握,官方也提供了对应的视频讲解,地址在这里,如下所示:

 项目主要完成了两个贡献:

  • 借助ChatGPT以及公开的数据集,我们构造了一个X光影像-诊断报告对的医学多模态数据集;
  • 我们将构建的中文胸部X光片诊断数据集在VisualGLM-6B进行微调训练,并开放了部分训练权重用于学术研究;

下面是报告内容详情:

 官方项目使用的数据集是开源的数据如下:

  • MIMIC-CXR是一个公开可用的胸部X光片数据集,包括377,110张图像和227,827个相关报告。
  • OpenI是一个来自印第安纳大学医院的胸部X光片数据集,包括6,459张图像和3,955个报告。

在上述工作中,报告信息都为非结构化的,不利于科学研究。为了生成合理的医学报告,我们对两个数据集进行了预处理,并最终得到了可以用于训练的英文报告。除此之外,为了更好的支持中文社区发展,借助ChatGPT的能力,我们将英文报告进行了中文翻译,并最终形成了可用于训练的数据集。

 环境安装部署如下:

  1. 安装环境
  2. # 安装依赖
  3. pip install -r requirements.txt
  4. # 国内换源安装依赖
  5. pip install -i https://mirrors.aliyun.com/pypi/simple/ -r requirements.txt
  6. 此时默认会安装deepspeed库(支持sat库训练),此库对于模型推理并非必要,同时部分Windows环境安装此库时会遇到问题。 如果想绕过deepspeed安装,我们可以将命令改为:
  7. # 安装依赖
  8. pip install -i https://mirrors.aliyun.com/pypi/simple/ -r requirements_wo_ds.txt
  9. # 安装SwissArmyTransformer
  10. pip install -i https://mirrors.aliyun.com/pypi/simple/ --no-deps "SwissArmyTransformer>=0.3.6"

checkpoints-XrayGLM-300模型权重地址在这里,如下所示:

 checkpoints-XrayGLM-3000模型权重地址在这里,如下所示:

 可以看到:模型体积将近16GB。

运行启动只需要终端执行下面的命令即可:

python web_demo.py --from_pretrained checkpoints/checkpoints-XrayGLM-3000

实例影像诊断效果如下所示:

 多轮对话实例:

 感兴趣的话都是可以自己训练实验体验一下的:

  1. 硬件资源
  2. * 实验在A100 (4X, 80GB)上进行
  3. 1)准备诊疗报告(中文)和X光影像在data/Xray文件夹下;
  4. 2)开始训练:
  5. # 设置CUDA变量,主要是为了解决有时候直接训练而出现无法正确加载到显卡问题
  6. export CUDA_VISIBLE_DEVICES=0,1,2,3
  7. # 开始训练
  8. bash finetune_XrayGLM.sh
  9. 这里的复现过程非常简单,主要是很多过程我们都为大家准备好了,大家可以随时复现一个自己的XrayGLM。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/757123
推荐阅读
相关标签
  

闽ICP备14008679号