当前位置:   article > 正文

开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(一)

qwen-7b-chat

一、前言

    基于真实生产级项目分享,帮助有需要的同学快速构建完整可交付项目

    项目流程包括(去掉业务部分):

  1.   开源模型测试,包括baichuan、qwen、chatglm、bloom
  2.   数据爬取及清洗
  3.   模型微调及评估
  4.   搭建AI交互能力
  5.   搭建IM交互能力
  6.   搭建违禁词识别能力
  7.   优化模型推理速度
  8.   增强模型长期记忆能力

二、术语介绍

    2.1. vLLM

    vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量

    2.2. qwen-7b

    通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。 

    2.3.Anaconda

    Anaconda(官方网站)就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。


三、构建环境

    3.1. 基础环境及前置条件

  1.  操作系统:centos7
  2.  Tesla V100-SXM2-32GB  CU
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/567728
推荐阅读
相关标签
  

闽ICP备14008679号