花生_TL007

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势（九）_vllm qwen1.5

作者：花生_TL007 | 2024-04-19 07:43:38

赞

踩

vllm qwen1.5

一、前言

通过“开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势（八）”学习，实现qwen1.5-7b-chat集成vllm实现推理加速，在本篇学习中，将详细讲解如何基于vllm构建与OpenAI-API兼容的API服务。

二、术语

2.1、vLLM

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。

2.2、OpenAI-API Compatible API Service

遵循 OpenAI API 的接口规范，让开发者可以使用OpenAI API相同的方式和方法来调用这些服务，从而利用它们的语言模型功能。

三、前提条件

3.1. 基础环境及前置条件

操作系统：centos7
Tesla V100-SXM2-32GB CUDA Version: 12.2
提前下载好qwen1.5-7b-chat模型

通过以下两个地址进行下载，优先推荐魔搭

hugg

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/450614

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号