搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
现在公司都在用的CI/CD框架到底是什么?_cicd用的什么
2
共享负载均衡后端的主机健康检查状态是异常的解决
3
DSP与FPGA的技术特点和区别是什么?_dsp芯片与fpga区别
4
【攻防世界】bug
5
第五届河南省CCPC河南省省赛题解+复盘_河南省第五届ccpc
6
最新AI创作系统ChatGPT网站源码Midjourney-AI绘画系统,Suno-v3-AI音乐生成大模型。
7
国产Ai代码助手,通义灵码IDEA安装教程_通义灵码idea下载
8
Python小游戏:100行代码实现贪吃蛇小游戏
9
Python淘宝体育用品销售数据可视化分析大屏全屏系统
10
Spring Boot 3跨域方案详解:告别CORS烦恼_spring boot 3.0 增加cores 跨域配置
当前位置:
article
> 正文
第五课课程笔记 LMDeploy 量化部署 LLM-VLM 实践
作者:我家小花儿 | 2024-04-17 15:21:05
赞
踩
第五课课程笔记 LMDeploy 量化部署 LLM-VLM 实践
来自
openmmlab
的
讲座视频
大模型部署背景
部署:指的是将开发完毕的软件投入使用的过程
人工智能模型部署:是将训练好的深度学习模型在特定环境中运行的过程
大模型部署面临的挑战
LLM参数量巨大,前向推理inference需要大量计算
GPT3有175B,20B的算小模型了
内存开销巨大
FP16,20B模型加载参数需要显存40G+,175B模型需要350G+
20B模型kv缓存需要显存10G,合计需要50G显存
RTX 4060X消费级独显,显存8G
访存瓶颈。数据交换速度不够,显存带宽比起访存量偏小,无法发挥GPU的计算能力。
动态请求。请求量不确定,GPU计算能力发挥不足。
大模型部署方法
三种:模型剪枝
模型剪枝 pruning
减少模型中的冗余参数
知识蒸馏
用大模型作为teacher,用teacher去训练一个student的小模型
早期用于计算机视觉任务
量化 Quantization
把浮点数转换为整数或其他离散形式,减轻存储和计算负担
可以提升计算速度。因为可以降低访存量,显著降低数据传输时间,提升计算效率。
LMDeploy简介
是涵盖LLM任务的全套轻量化、部署和服务的解决方案
三大核心功能
模型高效推理。
模型量化压缩
服务化部署
性能表现优异,有突出优势
支持语言模型,也支持多模态大模型,视觉任务,可以使用pipeline便捷运行
动手实践环节
安装、部署、量化
参考
文档说明
一共6个章节
注意点
cuda12.2环境
terminal操作
internstudio内安装比较方便
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家小花儿/article/detail/440894
推荐阅读
article
【
InternLM
实战营
第二期
笔记05】
LMDeploy
量化
部署
LLM-VLM 实践...
模型
部署
是指将训练好的机器学习或深度学习模型集成到实际应用中,使其能够对外提供服务的过程。这通常涉及将模型从训练环境中导...
赞
踩
article
第二期
LMDeploy
量化
部署
LLM
-VLM 实践 笔记...
根据InternLM2技术报告(1提供的模型参数数据,以及KV Cache空间估算方法[2],以FP16为例,在batc...
赞
踩
article
LMDeploy
量化
部署
LLM
-
VLM
实践(
InternLM
实战营
第五次
作业)...
在3中,我们已经下载好了
InternLM
2-Chat-1.8B的HF模型。下面我们先用Transformer来直接运行I...
赞
踩
article
第二期
书生浦语大模型实战营
第五次
课程笔记
----
LMDeploy
量化部署
LLM
-
VLM
实践...
第二期
书生浦语大模型实战营
第五次
课程笔记
----
LMDeploy
量化部署
LLM
-
VLM
实践
第二期
书生浦语大模型实战...
赞
踩
article
LMDeploy
量化
部署
LLM
-
VLM
实践(
InternLM
实战营
第五次
笔记)...
LMDeploy
是涵盖了大模型任务的全套轻
量化
、
部署
和服务解决方案,核心功能包括高效推理、可靠
量化
、便捷服务和状态推理。...
赞
踩
article
LMDeploy
量化
部署
LLM
&
VLM
实践...
3.以API Server方式启动 lmdeploy,开启 W4A16
量化
,调整KV Cache的占用比例为0.4,分别...
赞
踩
article
LMDeploy
量化
部署
LLM
&VLM实战
--
笔记...
打开InternStudio平台,创建开发机。填写开发机名称;选择镜像;选择10% A100*1GPU;点击“立即创建”...
赞
踩
article
书生浦语
训练营
2期-
第五节
课—
LMDeploy
量化
部署
LLM
-VLM 实践笔记及作业...
打开InternStudio平台,创建开发机。填写开发机名称;;选择10% A100*1GPU;点击“立即创建”。注意请...
赞
踩
相关标签
笔记
人工智能
自然语言处理
学习
python
conda