赞
踩
llama-factory 提供了 vllm API 部署,但笔者在测试时,发现部署的 vllm API 没有直接用vllm推理的速度快。
首先使用 llama-factory 微调,得到微调后的 lora 权重;由于 vllm 并没有支持所有的模型;
故通用的方式是 将 lora 权重和大模型融合成新的大模型,再由 vllm 推理;
在使用 alpaca 样式的数据集微调时,llama-factory 框架在训练时,会自动在prompt 添加 template 。
所以,在微调大模型后,使用vllm推理时,也要给 vllm 传入 封装好的template 。
#!/bin/bash
# DO NOT use quantized model or quantization_bit when merging lora weights
CUDA_VISIBLE_DEVICES=0 python ../../src/export_model.py \
--model_name_or_path ZhipuAI/chatglm3-6b \
--adapter_name_or_path output \
--template chatglm3 \
--finetuning_type lora \
--export_dir new_model \
--export_size 2 \
--export_legacy_format False
CUDA_VISIBLE_DEVICES=0 API_PORT=8000 python ../../src/api_demo.py \
--model_name_or_path new_model \
--template chatglm3 \
--finetuning_type lora \
--infer_backend vllm
首先要融合 lora 权重变成新的大模型保存到 new_model 文件夹下,vllm 推理时显存占用达到了20G 左右;
CUDA_VISIBLE_DEVICES=0 API_PORT=8000 python ../../src/api_demo.py \
--model_name_or_path ZhipuAI/chatglm3-6b \
--adapter_name_or_path output/output_train/checkpoint-2250 \
--template chatglm3 \
--finetuning_type lora
如果不使用 vllm 推理,使用huggingface部署,显存占用只有 13G。
笔者在测试时,发现使用 vllm API 部署 和 HuggingFace API 部署的推理速度都差不多,大概每秒处理 3.15 条数据;
如果上述 llama-factory API 部署,已经能够满足你的需求,无需继续往下阅读;
因为笔者有大量的文本需要大模型进行处理,故期望大模型能推理的更快一点;
笔者使用 vllm 直接推理的速度可以达到 每秒处理 15.96 条,相比之前 API 部署快了 5 倍,推理时间可以大幅缩短;
如下所示:推理40万条数据,耗时6小时57分钟。
Processed prompts: 100%|███████████████████████████████| 399997/399997
[6:57:49<00:00, 15.96it/s]
llama-factory 只提供了 API 形式的 vllm 推理,里面提供了vllm 推理的代码;
点击查看 LLaMA-Factory vllm_engine.py TODO: 读者可修改此处的代码
类似如下文章的实现:vllm 本地大模型加速推理
lora 微调的数据集形式如下:
{
"instruction":
"你是专门进行企业分类的专家。请根据提供的企业相关信息:'{'企业名称(全称)': '自动化工程有限公司', '经营范围': '(省略...)'}',将企业划分到以下类别中,企业可能属于多个类别:['文化旅游', '人工智能', '深地深海深空', '空天信息', '电磁能']。请按照列表的格式回答。 ",
"input": "",
"output": "[\"人工智能\", \"高端装备和先进基础材料\"]"
}
使用 alpaca 数据集格式微调大模型时,会根据填入的模型和template,对数据集文本添加一些特殊字符,不同的大模型还都不一样。如果后续要使用大模型进行推理,也需要将文本调整成训练的时候一样。如果直接使用 LLaMA-Factory API 部署,无需考虑prompt里面的这些特殊字符, LLaMA-Factory 会自动封装完成。
既然咱们要自己使用 vllm 推理,prompt template 的封装就得咱们自己写;
有一个简便方法,看到 LLaMA-Factory 给数据集封装的 template prompt 的样例。
如下图所示,修改该py文件的代码 https://github.com/hiyouga/LLaMA-Factory/blob/main/src/llmtuner/data/loader.py
把 dataset 的样子打印出来看看
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。