当前位置:   article > 正文

将qwen1.8B量化成gguf(其他模型同理)_qwen gguf

qwen gguf

环境配置可以参照官方网站GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++

运行pip install -r requirements.txt,后续缺少什么就直接安装什么,python建议3.10

 具体在linux安装步骤为以下顺序

  1. git clone https://github.com/ggerganov/llama.cpp
  2. cd llama.cpp
  3. mkdir build
  4. cd build
  5. cmake ..
  6. # generate exe files
  7. cmake --build . --config Release
  8. cd ..
  9. # 注意一定要用convert-hf-to-gguf.py才能支持Qwen,其他可能是Python convert.py model(没试过)
  10. python convert-hf-to-gguf.py Path_To_Qwen
  11. #进一步对FP16模型进行4-bit量化,生成量化模型文件
  12. bin/quantize ../Qwen/Qwen-1_8B-Chat/ggml-model-f16.gguf ../Qwen/Qwen-1_8B-Chat/ggml-model-q4_0.gguf q4_0
  13. #Path_To_Qwen = Qwen/Qwen-1_8B-Chat

如果只需要16精度的话就只要几行代码

  1. git clone https://github.com/ggerganov/llama.cpp
  2. cd llama.cpp
  3. python convert-hf-to-gguf.py Path_To_Qwen

https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/llama.cpp%E9%87%8F%E5%8C%96%E9%83%A8%E7%BD%Bicon-default.png?t=N7T8https://github.com/ymcui/Chinese-LLaMA-Alpaca/wiki/llama.cpp%E9%87%8F%E5%8C%96%E9%83%A8%E7%BD%B2

llama.cpp尝鲜Qwen1.8B - 知乎阿里在12月1日进一步开源了Qwen的系列模型。其中包含最小的型号Qwen1.8B。算是中文领域3B以下最强的大模型之一了。 试试llama.cpp量化部署。 关于终端的量化部署构架,有llama.cpp、fastllm、Qwen.cpp等都可以选择…icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/670092892

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/585462
推荐阅读
相关标签
  

闽ICP备14008679号