当前位置:   article > 正文

开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势(九)_vllm qwen1.5

vllm qwen1.5

一、前言

    通过“开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势(八)”学习,实现qwen1.5-7b-chat集成vllm实现推理加速,在本篇学习中,将详细讲解如何基于vllm构建与OpenAI-API兼容的API服务。


二、术语

2.1、vLLM

    vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。

2.2、OpenAI-API Compatible API Service

    遵循 OpenAI API 的接口规范,让开发者可以使用OpenAI API相同的方式和方法来调用这些服务,从而利用它们的语言模型功能。


三、前提条件

3.1. 基础环境及前置条件

  1.      操作系统:centos7
  2.      Tesla V100-SXM2-32GB  CUDA Version: 12.2
  3.      提前下载好qwen1.5-7b-chat模型

          通过以下两个地址进行下载,优先推荐魔搭

          hugg

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/450614
推荐阅读
相关标签
  

闽ICP备14008679号