使用 vllm 本地部署 Qwen2_vllm部署qwen2

作者：寸_铁 | 2024-07-19 10:44:34

踩

vllm部署qwen2

使用 vllm 本地部署 Qwen2-14
0. 引言
1. 安装 vllm
2. 本地部署 Qwen2-
3. 使用 Qwen2
0. 引言
此文章主要介绍使用使用 vllm 本地部署 Qwen2

1. 安装 vllm
创建虚拟环境，

conda create -n myvllm python=3.10 -y
conda activate myvllm
pip install -U pip

安装 Ray 和 Vllm，

pip install ray

安装 Vllm，

# pip install vllm
git clone https://github.com/vllm-project/vllm.git; cd vllm
pip install ./ --no-build-isolation

安装 flash-attention，

# git clone https://github.com/Dao-AILab/flash-attention;cd flash-attention
# pip install ./ --no-build-isolation
pip install flash-attn

2. 本地部署 Qwen2
eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=3,2,1,0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model Qwen/Qwen2-7B-Instruct --gpu-memory-utilization 0.98 --tensor-parallel-size 4 --port 8000

3. 使用 Qwen2-7

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/851032