当前位置:   article > 正文

书生·浦语大模型全链路开源体系(四)——微调(XTuner)_书生浦语 微调

书生浦语 微调

一、微调(finetune):

LLM模型存在的幻觉问题、专业知识领域不强等问题,除了可以通过第三章提到的RAG技术解决,还可以通过对大模型进行专业领域知识的微调,来提升其在专业领域的能力,减少幻觉,提高个性化水平。

1、增量预训练微调:

让基座模型学习新知识,如某垂直领域的常识数据:文章,代码,书籍等,类似于无监督学习

2、指令跟随微调:

根据人类指令进行对话训练,提高模型的对话能力,类似于监督学习

3、lora:

LLM的参数量主要集中在模型的linear中,将这些参数进行全量微调,需要的显存极为庞大。

LORA是一种便捷的微调方法,仅训练一部份参数,大大降低了对显存的需求。

原理:

LORA通过在linear层旁边,新增一个支路,包含两个连续的小linear,新增的这个支路通常定义为Adapter.

Adapter的参数量远远小于原来的linear,大大降低了对显存的占用。

二、利用Xtuner微调InternLM-7B模型:

1、环境配置:

Ubuntu + Anaconda + CUDA/CUDNN + 8GB nvidia显卡(软件和硬件配置)

基础的依赖包和之前安装的一致(也可以先不安装,用到再安装),直接进入创建的虚拟环境:

conda activate xtuner0.1.9

创建基础文件目录,进入并拉取代码:

  1. mkdir xtuner019 && cd xtuner019
  2. git clone -b v0.1.9 https://github.com/InternLM/xtuner
  3. # 进入源码目录
  4. cd xtuner
  5. # 从源码安装 XTuner
  6. pip install -e '.[all]'

 XTuner 提供多个开箱即用的配置文件,用户可以通过下列命令查看:

xtuner list-cfg

 假如显示bash: xtuner: command not found的话可以考虑在终端输入 export PATH=$PATH:'/root/.local/bin'

配置文件名的解释(例子):

模型名internlm_chat_7b
使用算法qlora
数据集oasst1
把数据集跑几次跑3次:e3 (epoch 3 )

再创建一个本次训练专用的文件夹:

mkdir ~/ft-oasst1 && cd ~/ft-oasst1

文件准备:

 拷贝一个配置文件到当前目录: # xtuner copy-cfg ${CONFIG_NAME} ${SAVE_PATH}

  1. cd ~/ft-oasst1
  2. xtuner copy-cfg internlm_chat_7b_qlora_oasst1_e3 .

2、模型下载:

cp -r /root/share/temp/model_repos/internlm-chat-7b ~/ft-oasst1/

3、数据集准备:

复制Xtuner准备好的数据集:

  1. cd ~/ft-oasst1
  2. # ...-guanaco 后面有个空格和英文句号啊
  3. cp -r /root/share/temp/datasets/openassistant-guanaco .

修改其中的模型和数据集为 本地路径

cd ~/ft-oasst1

在vim界面完成修改后,请输入:wq退出。假如认为改错了可以用:q!退出且不保存。当然我们也可以考虑打开python文件直接修改,但注意修改完后需要按下Ctrl+S进行保存。

  1. vim internlm_chat_7b_qlora_oasst1_e3_copy.py
  2. # 修改模型为本地路径
  3. - pretrained_model_name_or_path = 'internlm/internlm-chat-7b'
  4. + pretrained_model_name_or_path = './internlm-chat-7b'
  5. # 修改训练数据集为本地路径
  6. - data_path = 'timdettmers/openassistant-guanaco'
  7. + data_path = './openassistant-guanaco'

常用超参

参数名解释
data_path数据路径或 HuggingFace 仓库名
max_length单条数据最大 Token 数,超过则截断
pack_to_max_length是否将多条短数据拼接到 max_length,提高 GPU 利用率
accumulative_counts梯度累积,每多少次 backward 更新一次参数
evaluation_inputs训练过程中,会根据给定的问题进行推理,便于观测训练状态
evaluation_freqEvaluation 的评测间隔 iter 数
............

自定义数据集:

将准备好的数据转换为jsonl格式:

  1. [{
  2. "conversation":[
  3. {
  4. "system": "xxx",
  5. "input": "xxx",
  6. "output": "xxx"
  7. }
  8. ]
  9. },
  10. {
  11. "conversation":[
  12. {
  13. "system": "xxx",
  14. "input": "xxx",
  15. "output": "xxx"
  16. }
  17. ]
  18. }]

通过 python脚本:将 数据集中的 “问题” 和 “回答 ”两列 提取出来,再放入 .jsonL 文件的每个 conversation 的 input 和 output 中,这一步的 python 脚本可以请 ChatGPT 来完成。

prompt提示词:

  1. Write a python file for me. using openpyxl. input file name is MedQA2019.xlsx
  2. Step1: The input file is .xlsx. Exact the column A and column D in the sheet named "DrugQA" .
  3. Step2: Put each value in column A into each "input" of each "conversation". Put each value in column D into each "output" of each "conversation".
  4. Step3: The output file is .jsonL. It looks like:
  5. [{
  6. "conversation":[
  7. {
  8. "system": "xxx",
  9. "input": "xxx",
  10. "output": "xxx"
  11. }
  12. ]
  13. },
  14. {
  15. "conversation":[
  16. {
  17. "system": "xxx",
  18. "input": "xxx",
  19. "output": "xxx"
  20. }
  21. ]
  22. }]
  23. Step4: All "system" value changes to "You are a professional, highly experienced doctor professor. You always provide accurate, comprehensive, and detailed answers based on the patients' questions."

划分训练集和测试集,这一步也可以利用chatgpt创作python脚本实现

 

  1. my .jsonL file looks like:
  2. [{
  3. "conversation":[
  4. {
  5. "system": "xxx",
  6. "input": "xxx",
  7. "output": "xxx"
  8. }
  9. ]
  10. },
  11. {
  12. "conversation":[
  13. {
  14. "system": "xxx",
  15. "input": "xxx",
  16. "output": "xxx"
  17. }
  18. ]
  19. }]
  20. Step1, read the .jsonL file.
  21. Step2, count the amount of the "conversation" elements.
  22. Step3, randomly split all "conversation" elements by 7:3. Targeted structure is same as the input.
  23. Step4, save the 7/10 part as train.jsonl. save the 3/10 part as test.jsonl

 修改internlm_chat_7b_qlora_oasst1_e3_copy.py文件的参数配置:

  1. # 修改import部分,其实这一句改不改都行
  2. - from xtuner.dataset.map_fns import oasst1_map_fn, template_map_fn_factory
  3. + from xtuner.dataset.map_fns import template_map_fn_factory
  4. # 修改模型为本地路径
  5. - pretrained_model_name_or_path = 'internlm/internlm-chat-7b'
  6. + pretrained_model_name_or_path = './internlm-chat-7b'
  7. # 修改训练数据为 MedQA2019-structured-train.jsonl 路径
  8. - data_path = 'timdettmers/openassistant-guanaco'
  9. + data_path = 'MedQA2019-structured-train.jsonl'
  10. # 修改 train_dataset 对象
  11. train_dataset = dict(
  12. type=process_hf_dataset,
  13. - dataset=dict(type=load_dataset, path=data_path),
  14. + dataset=dict(type=load_dataset, path='json', data_files=dict(train=data_path)),
  15. tokenizer=tokenizer,
  16. max_length=max_length,
  17. - dataset_map_fn=alpaca_map_fn,
  18. + dataset_map_fn=None,
  19. template_map_fn=dict(
  20. type=template_map_fn_factory, template=prompt_template),
  21. remove_unused_columns=True,
  22. shuffle_before_pack=True,
  23. pack_to_max_length=pack_to_max_length)

4、微调:

执行以下代码:

xtuner train ${CONFIG_NAME_OR_PATH} --deepspeed deepspeed_zero2

  1. # 单卡
  2. ## 用刚才改好的config文件训练
  3. xtuner train ./internlm_chat_7b_qlora_oasst1_e3_copy.py --deepspeed deepspeed_zero2
  4. # 多卡
  5. NPROC_PER_NODE=${GPU_NUM} xtuner train ./internlm_chat_7b_qlora_oasst1_e3_copy.py --deepspeed deepspeed_zero2

微调得到的 PTH 模型文件和其他杂七杂八的文件都默认在当前的 ./work_dirs 中。

微调时间一般较长,为了避免因为网络等不可控的因素,而中断微调训练 ,可以利用Tmux进行训练:

  1. # 更新
  2. apt updata -y
  3. # 下载tmux
  4. apt install tmux -y
  5. # 创建tmux环境,在该环境中运行微调
  6. tmux new -s finetune
  7. # ctrl B + D 快捷键推出
  8. # 再次进入创建的 finetune
  9. tmux attach finetine

微调得到的 PTH 模型文件和其他杂七杂八的文件都默认在当前的 ./work_dirs 中

 将得到的 PTH 模型转换为 HuggingFace 模型,即:生成 Adapter 文件夹

xtuner convert pth_to_hf ${CONFIG_NAME_OR_PATH} ${PTH_file_dir} ${SAVE_PATH}

  1. mkdir hf
  2. export MKL_SERVICE_FORCE_INTEL=1
  3. xtuner convert pth_to_hf ./internlm_chat_7b_qlora_oasst1_e3_copy.py ./work_dirs/internlm_chat_7b_qlora_oasst1_e3_copy/epoch_1.pth ./hf

 将 HuggingFace adapter 合并到大语言模型

xtuner convert merge \
     ${NAME_OR_PATH_TO_LLM} \
     ${NAME_OR_PATH_TO_ADAPTER} \
     ${SAVE_PATH} \
     --max-shard-size 2GB
  1. xtuner convert merge ./internlm-chat-7b ./hf ./merged --max-shard-size 2GB
  2. # 加载 Adapter 模型对话(Float 16
  3. xtuner chat ./merged --prompt-template internlm_chat
  4. # 4 bit 量化加载
  5. # xtuner chat ./merged --bits 4 --prompt-template internlm_chat

 5、运行:

terminal:

  • 修改 cli_demo.py 中的模型路径
- model_name_or_path = "/root/model/Shanghai_AI_Laboratory/internlm-chat-7b"
+ model_name_or_path = "merged"
  • 运行 cli_demo.py 以目测微调效果
python ./cli_demo.py

xtuner chat 的启动参数

启动参数干哈滴
--prompt-template指定对话模板
--system指定SYSTEM文本
--system-template指定SYSTEM模板
--bitsLLM位数
--bot-namebot名称
--with-plugins指定要使用的插件
--no-streamer是否启用流式传输
--lagent是否使用lagent
--command-stop-word命令停止词
--answer-stop-word回答停止词
--offload-folder存放模型权重的文件夹(或者已经卸载模型权重的文件夹)
--max-new-tokens生成文本中允许的最大 token 数量
--temperature温度值
--top-k保留用于顶k筛选的最高概率词汇标记数
--top-p如果设置为小于1的浮点数,仅保留概率相加高于 top_p 的最小一组最有可能的标记
--seed用于可重现文本生成的随机种子

web_demo:

 在完成ssh连接之后,老规矩:streamlit run /root/personal_assistant/code/InternLM/web_demo.py --server.address 127.0.0.1 --server.port 6006

注意:web_demo运行需要streamlit包,如果前面没有安装,在运行之前还需安装一下依赖包

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/368704
推荐阅读
相关标签
  

闽ICP备14008679号