当前位置: article > 正文

开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势（八）

作者：凡人多烦事01 | 2024-03-02 13:09:45

踩

一、前言

就在前几天开源社区又发布了qwen1.5版本，它是qwen2模型的测试版本。在本篇学习中，将集成vllm实现模型推理加速，现在，我们赶紧跟上技术发展的脚步，去体验一下新版本模型的推理质量。

二、术语

2.1. vLLM

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。

2.2. qwen1.5

Qwen1.5是Qwen2的测试版，这是一个基于转换器的纯解码器语言模型，在大量数据上进行了预训练。

In comparison with the previous released Qwen, the improvements include:

三、前提条件

3.1. 基础环境及前置条件

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/180610