赞
踩
llama.cpp的主要目标是能够在各种硬件上实现LLM推理,只需最少的设置,并提供最先进的性能。提供1.5位、2位、3位、4位、5位、6位和8位整数量化,以加快推理速度并减少内存使用。
GitHub:https://github.com/ggerganov/llama.cpp
克隆最新版llama.cpp仓库代码
python
复制代码git clone https://github.com/ggerganov/llama.cpp
对llama.cpp项目进行编译,在目录下会生成一系列可执行文件
css复制代码main:使用模型进行推理
quantize:量化模型
server:提供模型API服务
1.编译构建CPU执行环境,安装简单,适用于没有GPU的操作系统
python复制代码cd llama.cpp
mkdir
2.编译构建GPU执行环境,确保安装CUDA工具包,适用于有GPU的操作系统
如果CUDA设置正确,那么执行
nvidia-smi
、nvcc --version
没有错误提示,则表示一切设置正确。
python
复制代码make clean && make LLAMA_CUDA=1
3.如果编译失败或者需要重新编译,可尝试清理并重新编译,直至编译成功
python
复制代码make clean
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。