当前位置:   article > 正文

使用llama.cpp实现LLM大模型的格式转换、量化、推理、部署_llama3的大模型文件如何转变为gguf格式

llama3的大模型文件如何转变为gguf格式

使用llama.cpp实现LLM大模型的格式转换、量化、推理、部署

概述

llama.cpp的主要目标是能够在各种硬件上实现LLM推理,只需最少的设置,并提供最先进的性能。提供1.5位、2位、3位、4位、5位、6位和8位整数量化,以加快推理速度并减少内存使用。

GitHub:https://github.com/ggerganov/llama.cpp

克隆和编译

克隆最新版llama.cpp仓库代码

python

复制代码git clone https://github.com/ggerganov/llama.cpp
  • 1
  • 2
  • 3

对llama.cpp项目进行编译,在目录下会生成一系列可执行文件

css复制代码main:使用模型进行推理

quantize:量化模型

server:提供模型API服务
  • 1
  • 2
  • 3
  • 4
  • 5

1.编译构建CPU执行环境,安装简单,适用于没有GPU的操作系统

python复制代码cd llama.cpp

mkdir 
  • 1
  • 2
  • 3

2.编译构建GPU执行环境,确保安装CUDA工具包,适用于有GPU的操作系统

如果CUDA设置正确,那么执行nvidia-sminvcc --version没有错误提示,则表示一切设置正确。

python

复制代码make clean &&  make LLAMA_CUDA=1
  • 1
  • 2
  • 3

3.如果编译失败或者需要重新编译,可尝试清理并重新编译,直至编译成功

python

复制代码make clean
  • 1
  • 2
  • 3

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小桥流水78/article/detail/837501
推荐阅读
相关标签