赞
踩
环境配置可以参照官方网站GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++
运行pip install -r requirements.txt,后续缺少什么就直接安装什么,python建议3.10
具体在linux安装步骤为以下顺序
- git clone https://github.com/ggerganov/llama.cpp
- cd llama.cpp
- mkdir build
- cd build
- cmake ..
- # generate exe files
- cmake --build . --config Release
- cd ..
- # 注意一定要用convert-hf-to-gguf.py才能支持Qwen,其他可能是Python convert.py model(没试过)
- python convert-hf-to-gguf.py Path_To_Qwen
-
- #进一步对FP16模型进行4-bit量化,生成量化模型文件
- bin/quantize ../Qwen/Qwen-1_8B-Chat/ggml-model-f16.gguf ../Qwen/Qwen-1_8B-Chat/ggml-model-q4_0.gguf q4_0
-
- #Path_To_Qwen = Qwen/Qwen-1_8B-Chat
如果只需要16精度的话就只要几行代码
- git clone https://github.com/ggerganov/llama.cpp
- cd llama.cpp
- python convert-hf-to-gguf.py Path_To_Qwen
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。