赞
踩
本节将进行Llama 3 Web Demo 部署实战,包括环境搭建、Llama 3 Web Demo部署两部分
所用的两种方式连接远程服务器(InterStudio 开发机)- 终端 && VSCode
InterStudio平台上创建开发机,按需创建
终端连接远程开发机
VSCode连接远程开发机
VSCode设置端口转发,可将远程机相关服务的端口转发至本地访问
创建conda虚拟环境,安装必要的库
conda create -n llama3 python=3.10
conda activate llama3
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
下载模型
开发机中已派发了模型,这里直接软连接 InternStudio 中的模型即可
mkdir -p ~/model
cd ~/model
# 软链接 InternStudio 中的模型
ln -s /root/share/new_models/meta-llama/Meta-Llama-3-8B-Instruct ~/model/Meta-Llama-3-8B-Instruct
自有服务器的情况:
mkdir -p ~/model
cd ~/model
# 安装 git-lfs 依赖
# 如果下面命令报错则使用 apt install git git-lfs -y
conda install git-lfs
git-lfs install
git clone https://code.openxlab.org.cn/MrCat/Llama-3-8B-Instruct.git Meta-Llama-3-8B-Instruct
安装 XTuner 时会自动安装其他依赖
下载机智流 Llama3-Tutorial 教程
```bash
cd ~
git clone https://github.com/SmartFlowAI/Llama3-Tutorial
```
安装 XTuner 时会自动安装其他依赖
cd ~
git clone -b v0.1.18 https://github.com/InternLM/XTuner
cd XTuner
pip install -e .
运行 web_demo.py
streamlit run ~/Llama3-Tutorial/tools/internstudio_web_demo.py \
~/model/Meta-Llama-3-8B-Instruct
Llama 3 运行效果
注:Llama 3 Web 本地localhost访问需要在VSCode中设置转发端口8501
微调Llama 3 实现个人小助手认知
cd ~/Llama3-Tutorial
python tools/gdata.py
执行上面的命令生成 ~/Llama3-Tutorial/data/personal_assistant.json 数据文件格式如下所示:
cd ~/Llama3-Tutorial
# 开始训练,使用 deepspeed 加速,A100 40G显存 耗时24分钟
xtuner train configs/assistant/llama3_8b_instruct_qlora_assistant.py --work-dir /root/llama3_pth
# Adapter PTH 转 HF 格式
xtuner convert pth_to_hf /root/llama3_pth/llama3_8b_instruct_qlora_assistant.py \
/root/llama3_pth/iter_500.pth \
/root/llama3_hf_adapter
# 模型合并
export MKL_SERVICE_FORCE_INTEL=1
xtuner convert merge /root/model/Meta-Llama-3-8B-Instruct \
/root/llama3_hf_adapter\
/root/llama3_hf_merged
streamlit run ~/Llama3-Tutorial/tools/internstudio_web_demo.py \
/root/llama3_hf_merged
# 如果你是InternStudio 可以直接使用
# studio-conda -t lmdeploy -o pytorch-2.1.2
# 初始化环境
conda create -n lmdeploy python=3.10
conda activate lmdeploy
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
安装lmdeploy最新版。
pip install -U lmdeploy[all]
第一节已经下载了Llama 3 模型,这里省略此步骤
直接在终端运行
conda activate lmdeploy
lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct
模型的量化通常指的是将机器学习模型中的参数从浮点数转换为低精度的表示形式,如整数或二进制形式。这样做的目的是为了减少模型的存储和计算需求,从而提高模型在资源受限的设备上的部署效率和性能。
模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、KV Cache占用的显存,以及中间运算结果占用的显存。LMDeploy的KV Cache管理器可以通过设置–cache-max-entry-count参数,控制KV缓存占用剩余显存的最大比例。默认的比例为0.8。
# 此种情况下默认为 0.8
lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct/
# 如果你是InternStudio 就使用
# studio-smi
nvidia-smi
此时显存占用为23123MiB
下面,改变–cache-max-entry-count参数,设为0.5。
lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct/ --cache-max-entry-count 0.5
此时显存占用为20501MiB
使用下面的命令完成模型量化工作。
lmdeploy lite auto_awq \
/root/model/Meta-Llama-3-8B-Instruct \
--calib-dataset 'ptb' \
--calib-samples 128 \
--calib-seqlen 1024 \
--w-bits 4 \
--w-group-size 128 \
--work-dir /root/model/Meta-Llama-3-8B-Instruct_4bit
量化过程
量化后–cache-max-entry-count参数默认为0.8情况下的显存占用情况
可以看到量化后显存占用情况明显降低在–cache-max-entry-count参数默认为0.8的条件下,量化前显存占用为23123MiB,量化后为21183MiB
自 v0.4.0 起,LMDeploy KV 量化方式有原来的离线改为在线。并且,支持两种数值精度 int4、int8。量化方式为 per-head per-token 的非对称量化。它具备以下优势:
在生产环境下,我们有时会将大模型封装为 API 接口服务,供客户端访问。
通过以下命令启动API服务器,推理Meta-Llama-3-8B-Instruct模型:
lmdeploy serve api_server \
/root/model/Meta-Llama-3-8B-Instruct \
--model-format hf \
--quant-policy 0 \
--server-name 0.0.0.0 \
--server-port 23333 \
--tp 1
其中,model-format、quant-policy这些参数是与第三章中量化推理模型一致的;server-name和server-port表示API服务器的服务IP与服务端口;tp参数表示并行数量(GPU数量)。 通过运行以上指令,我们成功启动了API服务器,请勿关闭该窗口,后面我们要新建客户端连接该服务。 你也可以直接打开http://localhost:23333/查看接口的具体使用说明,如下图所示。
注意:做端口转发需要将远程机上的23333端口转发到本地机的23333端口才能使用localhost访问
运行后,可以通过命令行窗口直接与模型对话
新建一个命令行客户端去连接API服务器。首先通过VS Code新建一个终端: 激活conda环境
conda activate lmdeploy
运行命令行客户端:
lmdeploy serve api_client http://localhost:23333
关闭刚刚的VSCode终端,但服务器端的终端不要关闭。 运行之前确保自己的gradio版本低于4.0.0。
pip install gradio==3.50.2
新建一个VSCode终端,激活conda环境。
conda activate lmdeploy
使用Gradio作为前端,启动网页客户端。
lmdeploy serve gradio http://localhost:23333 \
--server-name 0.0.0.0 \
--server-port 6006
打开浏览器,访问地址http://localhost:6006 然后就可以与模型进行对话了!效果如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。