从前慢现在也慢

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

【大模型】LLM显存占用对比：Qwen-7B-Chat，Qwen-14B-Chat-Int8，chatglm3-6b_chatglm3-6b qwen-14b对比

作者：从前慢现在也慢 | 2024-04-03 21:05:03

赞

踩

chatglm3-6b qwen-14b对比

【大模型】LLM显存占用对比：Qwen-7B-Chat，Qwen-14B-Chat-Int8，chatglm3-6b

显存占用对比：
总结
参考

显存占用对比：

显卡：NVIDIA GeForce RTX 4090
系统环境：ubuntu 22.04LTS

Qwen-14B-Chat-Int8
模型：qwen/Qwen-14B-Chat-Int8
GPU占用：
Qwen-7B-Chat
模型：qwen/Qwen-7B-Chat（bf16, fp16）
GPU占用：
chatglm3-6b
模型：ZhipuAI/chatglm3-6b（bf16, fp16）
GPU占用：

总结

总结下来就是能用fp16就用fp16，能用Int8就用Int8，能用int4就用int4。
量化对降低显存占用还是非常不错。

参考

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/356617

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号