当前位置:   article > 正文

第十三篇-Tesla P40+ModelScope+Gradio+QWen-14B-Int4_tesla p40 是否支持q4量化

tesla p40 是否支持q4量化
本文主要实现Qwen-14B-Chat-Int4部署与测试
  • 1

环境

  系统:CentOS-7
  CPU: 14C28T
  显卡:Tesla P40 24G
  驱动: 515
  CUDA: 11.7
  cuDNN: 8.9.2.26
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

创建环境

conda create --name modelscope python=3.10

conda activate modelscope
  • 1
  • 2
  • 3

克隆项目

git clone https://github.com/lvxy/qwen-chat-gradio.git
cd qwen-chat-gradio
  • 1
  • 2

安装依赖-1

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 1

安装依赖-2

pip install auto-gptq optimum -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 1

下载模型

python down-models-qwen-14b-int4.py
可以在他服务器下载,这个是modelscope源(国内),速度还是非常好的
  • 1
  • 2

运行

修改 服务器模型文件位置
  • 1
cd qwen-14b-int4
python run-qwen-14b-int4-chat.py
  • 1
  • 2

访问使用

    http://127.0.0.1:7860
  • 1

可以使用体验

内存与性能

内存消耗在11G~16G
P40太差,速度还是比较慢的,”写一篇100字的关于大山的作文“ 大概35秒返回
  • 1
  • 2
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/495229
推荐阅读
相关标签
  

闽ICP备14008679号