第十三篇-Tesla P40+ModelScope+Gradio+QWen-14B-Int4_tesla p40 是否支持q4量化

作者：凡人多烦事01 | 2024-04-27 06:19:37

踩

tesla p40 是否支持q4量化

本文主要实现Qwen-14B-Chat-Int4部署与测试
1

  系统：CentOS-7
  CPU: 14C28T
  显卡：Tesla P40 24G
  驱动: 515
  CUDA: 11.7
  cuDNN: 8.9.2.26
1
2
3
4
5
6

conda create --name modelscope python=3.10

conda activate modelscope
1
2
3

git clone https://github.com/lvxy/qwen-chat-gradio.git
cd qwen-chat-gradio
1
2

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
1

pip install auto-gptq optimum -i https://pypi.tuna.tsinghua.edu.cn/simple
1

python down-models-qwen-14b-int4.py
可以在他服务器下载，这个是modelscope源(国内)，速度还是非常好的
1
2

修改 服务器模型文件位置
1

cd qwen-14b-int4
python run-qwen-14b-int4-chat.py
1
2

    http://127.0.0.1:7860
1

可以使用体验了

内存消耗在11G~16G
P40太差，速度还是比较慢的，”写一篇100字的关于大山的作文“ 大概35秒返回
1
2

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/495229