书生·浦语大模型实战营-学习笔记5

作者：盐析白兔 | 2024-02-15 20:06:50

踩

书生·浦语大模型实战营-学习笔记5

LMDeploy 大模型量化部署实践

在这里插入图片描述

在这里插入图片描述

轻量化、推理引擎、服务
在这里插入图片描述

显存消耗变少了
在这里插入图片描述

大语言模型是典型的访存密集型任务，因为它是decoder-by-decoder

先把数据量化为INT4存起来，算的时候会反量化为FP16
在这里插入图片描述
AWQ算法：观察到模型在推理过程中，只有一小部分参数是重要的参数，这部分参数不量化，其他的参数量化，这样保留了显存，性能也不会下降多少

在这里插入图片描述
不用等到整个batch结束

在这里插入图片描述

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/86575