当前位置:   article > 正文

llama.cpp 部署 llama-2-7b 测试 Llama 2_llama.cpp pth模型权重转换为ggml的fp16格式

llama.cpp pth模型权重转换为ggml的fp16格式

首先进入这里
https://github.com/facebookresearch/llama

 点击下载

填写注册信息

 接受后继续

 上面的按钮点击后,应该邮箱就收到链接了,几乎是很快的

把下面的链接复制后备用,注意24小时后会失效

提前先了解一下有3种模型

7b  13b  70b  

7b就是有70亿参数,文件夹里面有3个文件

其中最大的是模型文件有13G

外面还有分词器清单和分词器模型文件

 如果下载全部的话体积特别大,注意啦354GB

 所以我只下载了7B,它占用磁盘13GB的空间

 我们再把开头的仓库地址复制后克隆

ubuntu 20.04环境下面克隆llama仓库

git clone https://github.com/facebookresearch/llama.git

 安装python依赖

pip install -e .

 执行download.sh

注意要把刚刚复制的url贴上去

第二步,看看下面帅气的男人,我们要再下载一个仓库啦

 就是llama.cpp

执行命令  git clone https://github.com/ggerganov/llama.cpp.git

在里面make -j

 安装python依赖

先在models文件夹里面创建7B的文件夹

 再拷贝模型文件,参考下面的命令   

 使用python3 convert.py models/7B/

将7B模型转换为ggml FP32格式

转换成功后变成了f32.bin文件  (ggml FP16格式)

它的大小是27GB

 将模型量化为 4 位(使用 q4_0 方法)

./quantize ./models/7B/ggml-model-f32.bin ./models/7B/ggml-model-q4_0.bin q4_0

 量化为 4 位之后模型就变小成4G了

 最后就可以推理了

./examples/chat.sh

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/117312
推荐阅读
相关标签
  

闽ICP备14008679号