20240511大模型开发日记-Qwen1.5-110B-chat cpu版量化和open-webui部署

作者：正经夜光杯 | 2024-07-23 16:12:36

踩

qwen1.5-110b-chat

1.Qwen1.5-110B-chat cpu版量化
今天上午做的是对110B-chat版进行cpu量化，使用的是llamacpp
因为要量化为cpu版本，所以到llamacpp文件夹下，直接输入make命令，目的是生成用于推理的./main和用于量化的./quantize二进制文件。
（使用make LLAMA_CUDA=1 ，则是为了进行gpu推理）
make完之后，输入python convert.py /allUser/two/demo/model/Qwen1.5-110B-Chat --outfile /allUser/two/demo/model/Qwen1.5-110B-Chat/ggml-model-f16-cpu.gguf --vocab-type bpe --pad-vocab 这个命令。
（在这里llamacpp对Qwen系列模型的支持没有llama系列的好，还需要加–vocab-type bpe --pad-vocab，如果量化的是llama系列模型，则python convert-hf-to-gguf.py /allUser/two/demo/model/ChineseAlpacaGroup/llama-3-chinese-8b就可以。）
在输入py convert,py后，则后台开始把safetensor文件的每层逐个转换成.gguf文件，但是在这里我出现了问题（在转换llama的时候就没有出现过），每次转换到200多就卡死了，后面ctrl+c停掉后再次转换，等会又卡死，不知道什么问题，当前我是用llamacpp的版本是5.06日下载，我的配置是内存512G，硬盘3.5T，ubuntu 22.04，感觉不会出现爆内存的情况，在转化过程中cpu是打满的，未用到gpu。
2.open-webui本地部署
这次为了调试，所以要在本地上也部署一份，在win11上部署要有个Node.js >=20.10和py>=3.11
安装Node.js，最好要有个管理npm包工具，这个我用的是nvm管理工具，教程是：https://blog.csdn.net/HuangsTing/article/details/113857145，跟着这个教程了就没什么问题。
安装完之后接着按照教程来：
先：
npm i
npm run build
在：
cd ./backend
pip install -r requirements.txt -U # 这里最好用-i https://pypi.mirrors.ustc.edu.cn/simple/ 使用国内镜像来进行安装
bash start.sh
但是在这一步：ERROR: Cannot uninstall ‘TBB’. It is a distutils installed project and thus we cannot accurately determine which files belong to ial uninstall. 这个包没有安装好，所以还要按这个’TBB’包（这一步再linux上是没有问题的）
目前就这样，然后后面再安装
后bash start.sh启动。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/870615