当前位置:   article > 正文

基于 vLLM 搭建 DeepSeek-V2 Chat 服务_vllm deepseek

vllm deepseek

直奔主题。

安装vLLM

官方实现的代码还没有 merge 到 vLLM 主分支,所以直接 git clone DeepSeek 的分支。

git clone https://github.com/zwd003/vllm.git
cd vllm
pip install -e .
  • 1
  • 2
  • 3

源码安装大概耗时 10 分钟。

OpenAI 接口规范启动

官方 Github 放的是单条推理代码,如果需要启动 api 服务,直接用 OpenAI 接口规范启动即可:

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m vllm.entrypoints.openai.api_server --model {YOUR_PATH}/deepseek-ai/DeepSeek-V2-Chat --port 10000 --tensor-parallel-size 8 --gpu-memory-utilization 0.9 --max-model-len 8192 --trust-remote-code
  • 1

首次启动大概耗时10分钟(8卡80G A100),后续启动差不多1分钟以内。
注:如果跑崩了出现OOM,启动时添加参数 --enforce-eager 即可解决。
在这里插入图片描述

接口测试

{
    "model": "{YOUR_PATH}/deepseek-ai/DeepSeek-V2-Chat",
    "messages": [{"role": "user", "content": "你是谁"}],
    "temperature": 0.3,
    "stream": false
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

在这里插入图片描述

参考链接:
https://github.com/deepseek-ai/DeepSeek-V2

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/905148
推荐阅读
相关标签
  

闽ICP备14008679号