赞
踩
1、环境
python 3.8
pytorch 2.0.0 (只支持Cuda 11.7 和 Cuda 11.8)
Cuda 11.8
(ChatGLM-6B-INT4最低 GPU 显存7G,所以显存要大于7GB)
2、创建虚拟环境
conda create -n chatglm python=3.8
激活环境
source activate chatglm
3、下载代码
git clone https://github.com/THUDM/ChatGLM-6B.git
4、安装包
切换到ChatGLM-6B文件夹下,执行以下命令,安装相应的包。
pip3 install -r requirements.txt
5、下载模型(两种部署模式)
5.1 从本地部署
修改web_demo.py文件:
从Hugging Face Hub下载ChatGLM-6B-INT4模型,然后把tokenizer和model中的路径替成ChatGLM-6B-INT4模型的路径。(可参考ChatGLM-6B部署笔记)
5.2 从线上下载部署
修改web_demo2.py文件:
- tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b-int4", trust_remote_code=True,)
- model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4", trust_remote_code=True).half().quantize(4).cuda()
- model.queue().launch(share=True,server_name="0.0.0.0",server_port=6006)
6、网页版启动执行
python3 -m streamlit run ./web_demo2.py --server.port 6006 --server.address 0.0.0.0
7、在浏览器打开网址:http://你的服务器地址:端口 即可进行测试。
8、结果展示。
参考链接:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。