赞
踩
本文主要实现Qwen-14B-Chat-Int4部署与测试
系统:CentOS-7
CPU: 14C28T
显卡:Tesla P40 24G
驱动: 515
CUDA: 11.7
cuDNN: 8.9.2.26
conda create --name modelscope python=3.10
conda activate modelscope
git clone https://github.com/lvxy/qwen-chat-gradio.git
cd qwen-chat-gradio
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install auto-gptq optimum -i https://pypi.tuna.tsinghua.edu.cn/simple
python down-models-qwen-14b-int4.py
可以在他服务器下载,这个是modelscope源(国内),速度还是非常好的
修改 服务器模型文件位置
cd qwen-14b-int4
python run-qwen-14b-int4-chat.py
http://127.0.0.1:7860
可以使用体验了
内存消耗在11G~16G
P40太差,速度还是比较慢的,”写一篇100字的关于大山的作文“ 大概35秒返回
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。