赞
踩
1、LMDeploy是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。
2、 核心功能——量化:降低显存占用,提升推理速度
3、 核心功能——推理引擎TurboMind:持续批处理,有状态的推理,高性能cuda kernel,Blocked k/v cache
4、 核心功能——推理服务api server
1、 环境配置
2、 服务部署
(1)简介
a. 模型推理/服务:主要提供模型本身的推理,一般来说可以和具体业务解耦,专注模型推理本身性能的优化,可以以模块、API等多种方式提供
b. API Server:一般作为前端的后端,提供与产品和服务相关的数据和功能支持
c. Client:负责与用户交互
(2)模型转换
在线转换可以直接加载Huggingface模型,离线转换需需要先保存模型再加载。
(3)TurboMind推理 + 命令行本地对话
(4)TurboMind推理 + API服务
(5)演示Demo
(6)TurboMind推理 + Python代码集成
(7)模型配置实践
3、模型量化
作业
使用 LMDeploy 以本地对话、网页Gradio、API服务中的一种方式部署 InternLM-Chat-7B 模型,生成 300 字的小故事(需截图)
1、 本地对话
2、 API
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。