开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势（一）

作者：很楠不爱3 | 2024-05-14 06:35:18

踩

qwen-7b-chat

一、前言

基于真实生产级项目分享，帮助有需要的同学快速构建完整可交付项目

项目流程包括（去掉业务部分）：

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。

通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。

Anaconda（官方网站）就是可以便捷获取包且对包能够进行管理，同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】