赞
踩
ollama导入从huggingface下载下来的模型在ollama的说明文档中有详细的介绍,大家可以按照文档说明进行操作。importing-pytorch–safetensors 。既然官方已经给出了明确的操作步骤,那么我写这篇博客的意义又是什么呢?主要有两个目的:1.我的操作可能更适合中国宝宝体质 2.方便后期自己查看
docker pull continuumio/anaconda3:2024.02-1
docker run -itd --name gguf-convert continuumio/anaconda3:2024.02-1
# 创建工作目录
mkdir work
cd work
docker exec -it gguf-convert bash
git clone https://github.com/ollama/ollama.git ollama
cd ollama
git submodule init
git submodule update llm/llama.cpp
conda create -n llama-env python=3.11.0
conda activate llama-env
pip install -r llm/llama.cpp/requirements.txt
pip install tiktoken
# 查看是否安装make
make --version
# 如果没有安装,则继续安装
apt-get update
apt-get install build-essential
make -C llm/llama.cpp quantize
从官网或者镜像网站上下载需要的模型,说明文档中采用git lfs的方式进行下载,使用过程中发现会报错,建议手动下载(用迅雷会快些),下载完成后把数据放在/root/work目录下
一些模型需要特殊的转换脚本,比如千问的模型可能就需要convert-hf-to-gguf.py脚本才可以正常转换
cd llm/llama.cpp
python convert-hf-to-gguf.py /root/work/MindChat/
生成的文件是:/root/work/MindChat/ggml-model-f16.gguf
模型下载完毕后(需要检查文件是否下载完整,下载不完整转换会报错),移动到 /root/work 目录下
截至到2024年05月22日ollama的开源代码是有问题的,需要回退到指定版本(如果已经切换到指定版本不需要重复切换)
cd /root/work/ollama/llm/llama.cp
git reset --hard 46e12c4692a37bdd31a0432fc5153d7d22bc7f72
python convert-hf-to-gguf.py /root/work/MindChat/
llama.cp提供了更加详细的向量化教程,参考:git-instruction
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。