这个屌丝很懒，什么也没留下！

llama.cpp试用

作者：小小林熬夜学编程 | 2024-02-14 20:19:50

显存占用是真的低，13B vicuna int4量化，example/chat-13B.sh 正常问答交流，不到2G的占用。相比之下，vicuna7B原版int8量化，8G显卡下，cuda会OOM (原版不支持int4量化)。chatglm6B int4量化，显存占用仍然需要6G。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/81355