赞
踩
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
感谢:星鸾云提供8卡A800测试环境,本次部署教程均在星鸾云平台完成
邀请链接:https://xl.hzxingzai.cn/register?invitation_code=8707231444
Meta 的新一代开源大语言模型
vllm Blog:https://blog.vllm.ai/2024/07/23/llama31.html
GPU:A800 80GB PCIe * 8 卡
CPU:112 核
内存:880 G
Python:Miniconda
CUDA Version:12.3
#1.安装依赖
pip install modelscope
#2.新建download.py 填入下面文件
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Meta-Llama-3.1-405B-Instruct-FP8',cache_dir='/user/data/model')
#3.开始下载
python download.py
conda create -n llama405 python=3.10
conda activate llama405
pip install -U vllm
#清华源加速 -i https://pypi.tuna.tsinghua.edu.cn/simple
### 启动脚本
## 环境检查
```bash
pip freeze | grep vllm
vllm==0.5.3
vllm-flash-attn==2.5.9.post1
python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.99 --max-model-len=16384 --served-model-name Llama-3.1-405B-Instruct-FP8 --model /root/xinglin-data/Llama-3.1-405B-Instruct-FP8 --kv-cache-dtype fp8_e4m3 --trust-remote-code --tensor-parallel-size 8
python -m vllm.entrypoints.openai.api_server
--host 0.0.0.0
--port 8000
--gpu-memory-utilization 0.99
--max-model-len=16384
--served-model-name Llama-3.1-405B-Instruct-FP8
--model /root/xinglin-data/Llama-3.1-405B-Instruct-FP8
--kv-cache-dtype fp8_e4m3
--trust-remote-code
--tensor-parallel-size 8
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。