搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
Neo4j入门(二)批量插入节点、关系_neo4j批量创建关系
2
hadoop高可用集群搭建_高可用 hadoop 集群的搭建
3
基于LLaMA Factory,单卡3小时训练专属大模型 Agent_llama factory windos
4
API安全的学习手册_api安全完全手册
5
使用Docker部署开源项目FreeGPT35来免费调用ChatGPT3.5 API_vercel免费版有什么限制
6
【花雕动手做】ASRPRO语音识别(35)---串口0#十六进制数打开继电器_asrpro串口
7
YOLOX安装、测试,自定义coco数据集进行测试_yolox安装教程
8
Java-高级技术(二)_java取钱模型小明
9
蓝桥杯笔记-2023年第十四届省赛真题-松散子序列_蓝桥杯松散子序列c++
10
C语言--数据结构:单链表
当前位置:
article
> 正文
第五课课程笔记 LMDeploy 量化部署 LLM-VLM 实践
作者:我家小花儿 | 2024-04-17 15:21:05
赞
踩
第五课课程笔记 LMDeploy 量化部署 LLM-VLM 实践
来自
openmmlab
的
讲座视频
大模型部署背景
部署:指的是将开发完毕的软件投入使用的过程
人工智能模型部署:是将训练好的深度学习模型在特定环境中运行的过程
大模型部署面临的挑战
LLM参数量巨大,前向推理inference需要大量计算
GPT3有175B,20B的算小模型了
内存开销巨大
FP16,20B模型加载参数需要显存40G+,175B模型需要350G+
20B模型kv缓存需要显存10G,合计需要50G显存
RTX 4060X消费级独显,显存8G
访存瓶颈。数据交换速度不够,显存带宽比起访存量偏小,无法发挥GPU的计算能力。
动态请求。请求量不确定,GPU计算能力发挥不足。
大模型部署方法
三种:模型剪枝
模型剪枝 pruning
减少模型中的冗余参数
知识蒸馏
用大模型作为teacher,用teacher去训练一个student的小模型
早期用于计算机视觉任务
量化 Quantization
把浮点数转换为整数或其他离散形式,减轻存储和计算负担
可以提升计算速度。因为可以降低访存量,显著降低数据传输时间,提升计算效率。
LMDeploy简介
是涵盖LLM任务的全套轻量化、部署和服务的解决方案
三大核心功能
模型高效推理。
模型量化压缩
服务化部署
性能表现优异,有突出优势
支持语言模型,也支持多模态大模型,视觉任务,可以使用pipeline便捷运行
动手实践环节
安装、部署、量化
参考
文档说明
一共6个章节
注意点
cuda12.2环境
terminal操作
internstudio内安装比较方便
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家小花儿/article/detail/440894
推荐阅读
article
【
InternLM
实战营
第二期
笔记05】
LMDeploy
量化
部署
LLM-VLM 实践...
模型
部署
是指将训练好的机器学习或深度学习模型集成到实际应用中,使其能够对外提供服务的过程。这通常涉及将模型从训练环境中导...
赞
踩
article
第二期
LMDeploy
量化
部署
LLM
-VLM 实践 笔记...
根据InternLM2技术报告(1提供的模型参数数据,以及KV Cache空间估算方法[2],以FP16为例,在batc...
赞
踩
article
LMDeploy
量化
部署
LLM
-
VLM
实践(
InternLM
实战营
第五次
作业)...
在3中,我们已经下载好了
InternLM
2-Chat-1.8B的HF模型。下面我们先用Transformer来直接运行I...
赞
踩
article
第二期
书生浦语大模型实战营
第五次
课程笔记
----
LMDeploy
量化部署
LLM
-
VLM
实践...
第二期
书生浦语大模型实战营
第五次
课程笔记
----
LMDeploy
量化部署
LLM
-
VLM
实践
第二期
书生浦语大模型实战...
赞
踩
article
LMDeploy
量化
部署
LLM
-
VLM
实践(
InternLM
实战营
第五次
笔记)...
LMDeploy
是涵盖了大模型任务的全套轻
量化
、
部署
和服务解决方案,核心功能包括高效推理、可靠
量化
、便捷服务和状态推理。...
赞
踩
article
LMDeploy
量化
部署
LLM
&
VLM
实践...
3.以API Server方式启动 lmdeploy,开启 W4A16
量化
,调整KV Cache的占用比例为0.4,分别...
赞
踩
article
LMDeploy
量化
部署
LLM
&VLM实战
--
笔记...
打开InternStudio平台,创建开发机。填写开发机名称;选择镜像;选择10% A100*1GPU;点击“立即创建”...
赞
踩
article
书生浦语
训练营
2期-
第五节
课—
LMDeploy
量化
部署
LLM
-VLM 实践笔记及作业...
打开InternStudio平台,创建开发机。填写开发机名称;;选择10% A100*1GPU;点击“立即创建”。注意请...
赞
踩
相关标签
笔记
人工智能
自然语言处理
学习
python
conda