基于 vLLM 搭建 DeepSeek-V2 Chat 服务_vllm deepseek

作者：我家小花儿 | 2024-07-30 19:43:56

踩

vllm deepseek

直奔主题。

安装vLLM

官方实现的代码还没有 merge 到 vLLM 主分支，所以直接 git clone DeepSeek 的分支。

git clone https://github.com/zwd003/vllm.git
cd vllm
pip install -e .
1
2
3

源码安装大概耗时 10 分钟。

OpenAI 接口规范启动

官方 Github 放的是单条推理代码，如果需要启动 api 服务，直接用 OpenAI 接口规范启动即可：

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m vllm.entrypoints.openai.api_server --model {YOUR_PATH}/deepseek-ai/DeepSeek-V2-Chat --port 10000 --tensor-parallel-size 8 --gpu-memory-utilization 0.9 --max-model-len 8192 --trust-remote-code
1

首次启动大概耗时10分钟（8卡80G A100），后续启动差不多1分钟以内。
注：如果跑崩了出现OOM，启动时添加参数 --enforce-eager 即可解决。
在这里插入图片描述

接口测试

{
    "model": "{YOUR_PATH}/deepseek-ai/DeepSeek-V2-Chat",
    "messages": [{"role": "user", "content": "你是谁"}],
    "temperature": 0.3,
    "stream": false
}
1
2
3
4
5
6

在这里插入图片描述

参考链接：
https://github.com/deepseek-ai/DeepSeek-V2

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/905148