赞
踩
ChatGLM-6B 是一个清华开源的、支持中英双语的对话语言模型,基于GLM架构,具有62亿参数。结合模型量化技术,ChatGLM-6B可以本地安装部署运行在消费级的显卡上做模型的推理和训练(全量仅需14GB显存,INT4 量化级别下最低只需 6GB 显存)虽然智商比不过 openAI 的 ChatGPT 模型,但是ChatGLM-6B 是个在部署后可以完全本地运行,可以自己随意调参,几乎没有任何审查限制,也几乎没有对话轮数限制的模型。
按照官方文档安装Python3.9+
下载 ChatGLM-6B
- # 下载项目源代码
- git clone https://github.com/THUDM/ChatGLM-6B
- # 切换到项目根目录
- cd ChatGLM-6B
- # 安装依赖
- pip install -r requirements.txt
- # 安装web依赖
- pip install gradio
下载模型
- #下载模型
- git clone https://huggingface.co/THUDM/chatglm-6b
需要下载十几个GB的东西。
如果实在网络不太行,可以将最后那一条下载模型部分命令替换为
- # 下载模型实现
- GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/THUDM/chatglm-6b
然后从这里手动下载模型参数文件,并将下载的文件替换到刚才新建的chatglm-6b 文件夹内(注意这个文件夹最后是小b结尾)
修改为 CPU 运行 ChatGLM-6B
重新回到ChatGLM-6B目录下,复制一份web_demo.py
文件,重名为web.py
将开头第5和第6行代码
- from transformers import AutoModel, AutoTokenizer
- import gradio as gr
- import mdtex2html
-
- tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
- model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()
- model = model.eval()
修改为
- from transformers import AutoModel, AutoTokenizer
- import gradio as gr
- import mdtex2html
-
- tokenizer = AutoTokenizer.from_pretrained("chatglm-6b", trust_remote_code=True)
- model = AutoModel.from_pretrained("chatglm-6b", trust_remote_code=True).float()
- model = model.eval()
THUDM/
这个第5和第6行都要改。(这个修改只有执行了上一步下载模型的需要,如果你没执行下载模型那一步,不要改).half().cuda()
改为.float()
(从用GPU的cuda改成用CPU运行)运行 ChatGLM-6B
重新回到 chatglm-6B 文件夹(注意是程序的,不是放模型的那个文件夹)输入以下命令
python web.py
程序会运行一个 Web Server,并输出地址(应该是 127.0.0.1:7860 )。在浏览器中打开输出的地址即可使用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。