当前位置:   article > 正文

Qwen1.5:使用VLLM加速推理模型(包含:OpenAI如何调用)_vllm qwen1.5

vllm qwen1.5

如何安装和配置VLLM库

在开始使用VLLM库之前,首先需要确保安装正确的版本。以下指南将帮助你完成安装和配置。

安装VLLM库

根据你的需求选择合适的版本进行安装。如果你只需要基本功能,可以安装版本0.3。使用以下命令安装:

pip install vllm==0.3
  • 1

如果你需要使用GPTQ-int8量化模型,那么应该安装0.4或更高版本:

pip install vllm>=0.4
  • 1

启动模型服务

在安装完毕后,可以通过以下命令启动模型服务。注意根据你的实际需求调整GPU设备编号和模型路径:

CUDA_VISIBLE_DEVICES=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 5000 --served-model-name Qwen1.5-14B-Chat-GPTQ-Int8 --model /home/Qwen1.5-14B-Chat-GPTQ-Int8 --quantization gptq --max-model-len 3840
  • 1

参数解释:

  • --quantization gptq:此参数用于启动量化模型。对于非量化版本的模型不需要添加此参数,而对于AWQ模型则应改为--quantization awq
  • --max-model-len:此参数可根据GPU的性能自行调整。不添加此参数时,系统将尝试使用最大可能的序列长度。

调整模型序列长度

在某些情况下,可能会因为GPU内存限制而需要调整模型的最大序列长度。如果遇到以下错误,说明序列长度超出了GPU的KV缓存限制:

ValueError: The model's max seq len (19008) is larger than the maximum number of tokens that can be stored in KV cache (3840). Try increasing `gpu_memory_utilization` or decreasing `max_model_len` when initializing the engine.
  • 1

这种情况下,你应该将--max-model-len参数设置为3840或更小,如下所示:

--max-model-len 3840
  • 1

通过以上步骤,你可以成功安装并配置VLLM库,根据具体需求调整运行参数,以确保模型的稳定运行。


OpenAI如何调用

如果你想使用 OpenAI 的官方客户端库来调用模型。首先,确保安装了 openai 客户端库:

pip install openai
  • 1

然后,使用 openai.Completion.create 方法来调用你的模型,并传入必要的参数。

from openai import OpenAI
client = OpenAI(base_url="http://0.0.0.0:5000/v1, api_key="EMPTY")

completion = client.chat.completions.create(
  model="Qwen1.5-14B-Chat-GPTQ-Int8",
  messages=[
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Who won the world series in 2020?"},
    {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},
    {"role": "user", "content": "Where was it played?"}
  ]
)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

模型的回复可以通过以下方式提取:

completion.choices[0].message.content
  • 1
声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号