当前位置:   article > 正文

使用 vllm 本地部署 Llama3-8b-Instruct_vllm llama3

vllm llama3

使用 vllm 本地部署 Llama3-8b-Instruct

0. 引言

此文章主要介绍使用 vllm 运行 Llama3-8b。

1. 安装 vllm

创建虚拟环境

conda create -n myvllm python=3.11 -y
conda activate myvllm
  • 1
  • 2

安装 Ray 和 Vllm,

pip install ray vllm
  • 1

安装 flash-attention,

git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation
  • 1
  • 2

2. 本地部署 Llama3-8b-Instruct

eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000
  • 1
  • 2
  • 3
  • 4

完结!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/594933
推荐阅读
相关标签
  

闽ICP备14008679号