当前位置:   article > 正文

llama.cpp试用

llama.cpp

显存占用是真的低,13B vicuna int4量化,example/chat-13B.sh 正常问答交流,不到2G的占用。相比之下,vicuna7B原版int8量化,8G显卡下,cuda会OOM (原版不支持int4量化)。chatglm6B int4量化,显存占用仍然需要6G。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/81355
推荐阅读
相关标签
  

闽ICP备14008679号