当前位置:   article > 正文

vllm部署qwen1.5

vllm部署qwen1.5

1、拉取镜像:

docker pull nvcr.io/nvidia/pytorch:23.10-py3

        此镜像需要自己安装vllm,也可拉取官方镜像,但只可开启类openai api服务

  1. docker pull vllm/vllm-openai:latest
  2. docker run --runtime nvidia --gpus all --name vllm \
  3. -v /mount/nfs/Dataset/ql/model:/root/model \
  4. -v /mount/nfs/Dataset/ql/vllm:/root/vllm \
  5. --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
  6. -p 8880:8000 \
  7. --ipc=host \
  8. vllm/vllm-openai:latest \
  9. --model /root/model/Qwen/qwen1.5-14b-chat-gptq-int4 \
  10. --gpu-memory-utilization 0.8 \
  11. --tensor-parallel-size 2 \
  12. --max-model-len 8129 \
  13. --served-model-name Qwen1.5-14B-Chat

2、安装环境

  1. docker run -id --runtime nvidia --gpus all --name vllm \
  2. -v /mount/nfs/Dataset/ql/model:/root/model \
  3. -v /mount/nfs/Dataset/ql/vllm:/root/vllm \
  4. --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
  5. -p 8880:8000 \
  6. --ipc=host \
  7. nvcr.io/nvidia/pytorch:23.10-py3
  8. docker exec -it vllm /bin/bash
  9. pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

3、部署服务

        部署api服务:

  1. CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.api_server --model /root/model/Qwen/qwen1.5-14b-chat-gptq-int4
  2. curl http://localhost:8000/generate \
  3. -d '{
  4. "prompt": "San Francisco is a",
  5. "use_beam_search": true,
  6. "n": 4,
  7. "temperature": 0
  8. }'

        部署openai风格的 api服务

  1. CUDA_VISIBLE_DEVICES=6,7 python -m vllm.entrypoints.openai.api_server \
  2. --model /root/model/Qwen/qwen1.5-14b-chat-gptq-int4 \
  3. --served-model-name qwen1.5-14b-chat-int4
  4. --gpu-memory-utilization 0.8 \
  5. --tensor-parallel-size 2
  6. curl http://localhost:8000/v1/completions \
  7. -H "Content-Type: application/json" \
  8. -d '{
  9. "model": "llama-2-13b-chat-hf",
  10. "prompt": "San Francisco is a",
  11. "max_tokens": 7,
  12. "temperature": 0
  13. }'

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/945301
推荐阅读
相关标签
  

闽ICP备14008679号