使用llama.cpp实现LLM大模型的格式转换、量化、推理、部署_llama3的大模型文件如何转变为gguf格式

作者：小桥流水78 | 2024-07-17 02:31:52

踩

llama3的大模型文件如何转变为gguf格式

使用llama.cpp实现LLM大模型的格式转换、量化、推理、部署

llama.cpp的主要目标是能够在各种硬件上实现LLM推理，只需最少的设置，并提供最先进的性能。提供1.5位、2位、3位、4位、5位、6位和8位整数量化，以加快推理速度并减少内存使用。

GitHub：https://github.com/ggerganov/llama.cpp

克隆最新版llama.cpp仓库代码

python

复制代码git clone https://github.com/ggerganov/llama.cpp
1
2
3

对llama.cpp项目进行编译，在目录下会生成一系列可执行文件

css复制代码main：使用模型进行推理

quantize：量化模型

server：提供模型API服务
1
2
3
4
5

1.编译构建CPU执行环境，安装简单，适用于没有GPU的操作系统

python复制代码cd llama.cpp

mkdir 
1
2
3

2.编译构建GPU执行环境，确保安装CUDA工具包，适用于有GPU的操作系统

如果CUDA设置正确，那么执行nvidia-smi、nvcc --version没有错误提示，则表示一切设置正确。

python

复制代码make clean &&  make LLAMA_CUDA=1
1
2
3

3.如果编译失败或者需要重新编译，可尝试清理并重新编译，直至编译成功

python

复制代码make clean
1
2
3

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小桥流水78/article/detail/837501