当前位置:   article > 正文

20240511大模型开发日记-Qwen1.5-110B-chat cpu版量化和open-webui部署

qwen1.5-110b-chat

1.Qwen1.5-110B-chat cpu版量化
今天上午做的是对110B-chat版进行cpu量化,使用的是llamacpp
因为要量化为cpu版本,所以到llamacpp文件夹下,直接输入make命令,目的是生成用于推理的./main和用于量化的./quantize二进制文件。
(使用make LLAMA_CUDA=1 ,则是为了进行gpu推理)
make完之后,输入python convert.py /allUser/two/demo/model/Qwen1.5-110B-Chat --outfile /allUser/two/demo/model/Qwen1.5-110B-Chat/ggml-model-f16-cpu.gguf --vocab-type bpe --pad-vocab 这个命令。
(在这里llamacpp对Qwen系列模型的支持没有llama系列的好,还需要加–vocab-type bpe --pad-vocab,如果量化的是llama系列模型,则python convert-hf-to-gguf.py /allUser/two/demo/model/ChineseAlpacaGroup/llama-3-chinese-8b就可以。)
在输入py convert,py后,则后台开始把safetensor文件的每层逐个转换成.gguf文件,但是在这里我出现了问题(在转换llama的时候就没有出现过),每次转换到200多就卡死了,后面ctrl+c停掉后再次转换,等会又卡死,不知道什么问题,当前我是用llamacpp的版本是5.06日下载,我的配置是内存512G,硬盘3.5T,ubuntu 22.04,感觉不会出现爆内存的情况,在转化过程中cpu是打满的,未用到gpu。
2.open-webui本地部署
这次为了调试,所以要在本地上也部署一份,在win11上部署要有个Node.js >=20.10和py>=3.11
安装Node.js,最好要有个管理npm包工具,这个我用的是nvm管理工具,教程是:https://blog.csdn.net/HuangsTing/article/details/113857145,跟着这个教程了就没什么问题。
安装完之后接着按照教程来:
先:
npm i
npm run build
在:
cd ./backend
pip install -r requirements.txt -U # 这里最好用-i https://pypi.mirrors.ustc.edu.cn/simple/ 使用国内镜像来进行安装
bash start.sh
但是在这一步:ERROR: Cannot uninstall ‘TBB’. It is a distutils installed project and thus we cannot accurately determine which files belong to ial uninstall. 这个包没有安装好,所以还要按这个’TBB’包(这一步再linux上是没有问题的)
目前就这样,然后后面再安装
后bash start.sh启动。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/870615
推荐阅读
相关标签
  

闽ICP备14008679号