使用llama.cpp启动GPU模型计算_ubuntu 使用gpu llama

作者：秋刀鱼在做梦 | 2024-06-19 11:44:05

踩

ubuntu 使用gpu llama

查询GPU使用状态：

watch -n 0.5 nvidia-smi

使用GPU编译llama.cpp:

make LLAMA_CUBLAS=1

用过make的记得删除项目，重新再以上执行命令，要不还是会使用CPU

两种启动方式（41是GPU启动层数，根据自身配置修改）

页面访问：./server -m ./models/qwen1_5-1_8b-chat-q8_0.gguf -c 2048 --port 6006 -ngl 41

命令行访问：./main -m ./models/qwen1_5-14b-chat-q2_k.gguf -n 512 --color -i -cml -f prompts/chat-with-qwen.txt -ngl 41

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/736329