当前位置:   article > 正文

【大模型】LLM显存占用对比:Qwen-7B-Chat,Qwen-14B-Chat-Int8,chatglm3-6b_chatglm3-6b qwen-14b对比

chatglm3-6b qwen-14b对比

【大模型】LLM显存占用对比:Qwen-7B-Chat,Qwen-14B-Chat-Int8,chatglm3-6b

显存占用对比:

显卡:NVIDIA GeForce RTX 4090
系统环境:ubuntu 22.04LTS

  • Qwen-14B-Chat-Int8
    模型:qwen/Qwen-14B-Chat-Int8
    GPU占用:
    在这里插入图片描述

  • Qwen-7B-Chat
    模型:qwen/Qwen-7B-Chat(bf16, fp16)
    GPU占用:
    在这里插入图片描述

  • chatglm3-6b
    模型:ZhipuAI/chatglm3-6b(bf16, fp16)
    GPU占用:
    在这里插入图片描述

总结

总结下来就是能用fp16就用fp16,能用Int8就用Int8,能用int4就用int4。
量化对降低显存占用还是非常不错。

参考

  1. https://modelscope.cn/models/qwen/Qwen-14B-Chat-Int8/summary
  2. https://modelscope.cn/models/qwen/Qwen-7B-Chat/summary
  3. https://modelscope.cn/models/ZhipuAI/chatglm3-6b/summary
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/356617
推荐阅读
相关标签
  

闽ICP备14008679号