ChatGLM-Med，HuaTuo，ChatDoctor_基于知识库构建指令数据集

作者：从前慢现在也慢 | 2024-04-05 11:43:32

踩

基于知识库构建指令数据集

ChatGLM-Med：基于中文医学知识的ChatGLM模型微调
HuaTuo：基于中文医学知识的LLaMA微调模型
ChatDoctor：基于常见医疗数据微调的LLaMA

ChatGLM-Med

模型为ChatGLM-6B，微调数据集为：医学知识图谱结合GPT3.5构建的中文医学指令数据集。基于相同的数据，训练LLaMA得到HuaTuo。

ChatGLM-Med的环境与ChatGLM-6B的环境一致。采用了公开和自建的中文医学知识图谱，主要参考了cMeKG（https://github.com/king-yyf/CMeKG_tools）。 KG围绕疾病、药物、检查指标等构建，字段包括并发症，高危因素，组织学检查，临床症状，药物治疗，辅助治疗等。知识图谱示例如下：

{
"中心词": "偏头痛", 
"相关疾病": ["妊娠合并偏头痛", "恶寒发热"], 
"相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], 
"所属科室": ["中西医结合科", "内科"], 
"发病部位": ["头部"]
}
1
2
3
4
5
6
7

利用GPT3.5围绕医学知识库构建问答数据，设置了多种Prompt形式来充分利用知识。指令微调数据集示例为：

问题: "一位年轻男性长期使用可卡因，突然出现胸痛、呕吐、出汗等症状，经检查发现心电图反映心肌急性损伤，请问可能患的是什么疾病？治疗方式是什么？"
回答: "可能患的是心肌梗塞，需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗，并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物，以防止病情加重。"
1
2

ChatGLM-Med的微调步骤如下（支持使用自己的数据集在ChatGLM-6B上微调），这里使用的是上面展示的数据集，首先获取ChatGLM-Med项目：

$ git clone https://github.com/SCIR-HI/Med-ChatGLM
1

参照https://github.com/THUDM/ChatGLM-6B，将原始模型参数放入model目录下。然后就可以执行指令微调：

$ sh scripts/sft_medchat.sh
1

根据实际情况调整batch size等超参，默认为ChatGLM-Med使用的参数。训练显存建议选择32G及以上。

如果想用自己的数据集继续指令微调（Instruct-tuning）ChatGLM，需要构建与data目录中训练集类似的文件格式进行。可以参照ChatGLM-Instruct-Tuning（https://github.com/thinksoso/ChatGLM-Instruct-Tuning）。

这里直接下载ChatGLM-Med微调后的模型：https://drive.google.com/drive/folders/1ZQSN56DloRGQ-Qj7IwzY4jV3ZHKMe9Bc，在infer.py中修改模型路径：

import torch
from transformers import AutoTokenizer, AutoModel
from modeling_chatglm import ChatGLMForConditionalGeneration
tokenizer = AutoTokenizer.from_pretrained(
    "/data/temp/ChatGLM-Med/", trust_remote_code=True)
model = ChatGLMForConditionalGeneration.from_pretrained(
    "/data/temp/ChatGLM-Med").half().cuda()
while True:
    a = input("请输入您的问题：（输入q以退出）")
    if a.strip() == 'q':
        exit()
    response, history = model.chat(tokenizer, "问题：" + a.strip() + '\n答案：', max_length=256, history=[])
    print("回答：", response)
1
2
3
4
5
6
7
8
9
10
11
12
13

HuaTuo

首先获取项目：

$ git clone https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
1

用ChatGLM-Med相同的数据，微调LLaMA-7B，此外，HuaTuo收集了2023年关于肝癌疾病的中文医学文献，利用GPT3.5围绕医学文献的【结论】构建多轮问答数据。在data_literature/liver_cancer.json中提供了其中的1k条训练样例：

[
{"instruction": " <user>: 我听说免疫疗法是治疗晚期肝癌的一种很有效的方法，真的吗？ <bot>: 是的，免疫疗法是一种新兴的治疗方法，它可以提高人体免疫系统对癌细胞的反应能力。对于晚期肝癌患者，免疫疗法已证明具有很高的治疗效果。 <user>: 但是，这是否适用于所有的肝癌患者？", 
"output": "不是所有的肝癌患者都适合进行免疫疗法。根据患者的临床表现和病情，医生会对患者进行评估，从而选择最适合的治疗方案。", 
"input": ""},
...
{"instruction": " <user>: 你好，请问你知道大黄虫丸治疗原发性肝癌的作用机制吗？ <bot>: 对于大黄虫丸在原发性肝癌治疗中的作用机制，目前还没有明确的研究结果。但是，根据一些与其成份相关的研究，大黄含有大黄素等成分，可通过调节肝细胞凋亡、增殖等方式抑制肿瘤细胞的生长和扩散，达到一定的治疗效果。 <user>: 那这项研究中观察组的总有效率为什么高于对照组呢？ <bot>: 观察组使用了大黄虫丸辅助肝动脉栓塞术进行治疗，相对于对照组仅仅行肝动脉栓塞术，大黄虫丸可能通过增强治疗的综合效果，促进肝癌的消退和治愈。同时，大黄虫丸可能还能够增强肝细胞的代谢和排毒能力，从而改善肝功能指标。 <user>: 这项研究中肝功能指标的差异对患者的治疗效果有何影响？", 
"output": "肝功能是评估患者病情和预后的重要指标，肝动脉栓塞术等治疗可能会对肝功能产生影响。观察组在治疗期间使用大黄虫丸进行辅助治疗，减轻了肝功能指标的恶化，可能对患者的长期预后产生积极的影响。", 
"id": 924, 
"input": ""}
1
2
3
4
5
6
7
8
9

直接获取已经训练好的LoRA权重：

$ git clone https://huggingface.co/thinksoso/lora-llama-med
1

上面是基于医学知识图谱构建指令再微调后的LoRA权重，还有基于医学文献的LoRA权重，基于医学文献的模型分为单轮或多轮脚本：

#基于医学知识库
$ bash ./scripts/infer.sh

#基于医学文献
#单轮
$ bash ./scripts/infer-literature-single.sh

#基于医学文献
#多轮
$ bash ./scripts/infer-literature-multi.sh
1
2
3
4
5
6
7
8
9
10

以基于医学知识库为例，修改 scripts/infer.sh 中的路径如下：

python infer.py \
    --base_model '/data/temp/llama-7b-hf' \
    --lora_weights '/data/temp/huatuo/lora-llama-med' \
    --use_lora True \
    --instruct_dir './data/infer.json' \
    --prompt_template 'med_template'
1
2
3
4
5
6

在基于医学知识图谱的HuaTuo微调指令数据集中，没有特别考虑多轮对话的history，所以，基于医学文献生成多轮对话数据后，能提高HuaTuo的多轮对话能力。

ChatDoctor

ChatDoctor是使用LLaMA模型并结合医学知识进行训练的医疗助手，研究人员先收集了50多万条真实医患对话，然后使用这些数据对LLaMA模型进行微调。用户只需描述症状，ChatDoctor就会像真人医生一样询问其他症状与体征，然后给出初步诊断和治疗建议。ChatDoctor是英文的医学问答LLM。

fig1

ChatDoctor微调数据集包括：

来自HealthCareMagic.com的10万例实际患者与医生之间的对话HealthCareMagic-100k（https://drive.google.com/file/d/1lyfqIwlLSClhgrCutWuEe_IACNq6XNUt/view）
来自icliniq.com的1万例实际患者与医生之间的对话icliniq-10k（https://drive.google.com/file/d/1ZKbqgYqWc7DJHs3N9TQYQVPdDQmZaClA/view）
5k例由ChatGPT生成的患者与医生之间的对话GenMedGPT-5k（https://drive.google.com/file/d/1nDTKZ3wZbZWTkFMBkxlamrzbNz0frugg/view）和疾病数据库（https://github.com/Kent0n-Li/ChatDoctor/blob/main/format_dataset.csv）

首先获取项目：

$ git clone https://github.com/Kent0n-Li/ChatDoctor
1

项目中提供了两种微调方式：一种是全量微调，一种是基于lora的微调，我们使用LoRA在HealthCareMagic-100k上微调，占用显存11GB：

python train_lora.py \
  --base_model '/data/temp/llama-7b-hf' \
  --data_path 'HealthCareMagic-100k.json' \
  --output_dir './lora_models/' \
  --batch_size 1 \
  --micro_batch_size 1 \
  --num_epochs 1 \
  --learning_rate 3e-5 \
  --cutoff_len 256 \
  --val_set_size 120 \
  --adapter_name lora
1
2
3
4
5
6
7
8
9
10
11

然后用微调后的模型进行推理：

$ python chat.py
1

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/365366