当前位置:   article > 正文

llama2-7b-chat-hf部署步骤(cpu版本)_llama-2-7b-chat-hf

llama-2-7b-chat-hf

1.git clone GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++

2.进入llama.cpp文件夹并make

make

3.把下载好的模型LLama-2-7b-chat-hf移入 /llama.cpp/models中

4.在llama.cpp目录中执行下面的命令安装依赖

python -m pip install -r requirements.txt

5.转换格式

python convert.py models/LLama-2-7b-chat-hf

6.进行4 bit量化

./quantize ./models/LLama-2-7b-chat-hf/ggml-model-f16.gguf ./models/LLama-2-7b-chat-hf/ggml-model-q4_0.gguf q4_0

7.使用交互模式运行

./main -m ./models/LLama-2-7b-chat-hf/ggml-model-q4_0.gguf -n 128 --repeat_penalty 1.0 --color -i -r "User:" -f prompts/chat-with-bob.txt

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/381151
推荐阅读
相关标签
  

闽ICP备14008679号