ChatGLM-6B是一个开源的、支持中英双语的对话语言模型，基于General Language Model（GLM）架构，具有62亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4量化级别下最低只需6GB显存）。ChatGLM-6B使用了和ChatGPT相似的技术，针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62亿参数的ChatGLM-6B已经能生成相当符合人类偏好的回答。

本文主要参考官方流程，在Ubuntu22.04上将ChatGLM-6B部署在本地Nvidia RTX 3080Ti Laptop GPU（16GB显存）。

2 硬件需求

默认情况下，模型以FP16精度加载，运行上述代码需要大概13GB显存。8-bit量化下GPU显存占用约为8GB，4-bit量化下仅需6GB占用。所以理论上，只要GPU的显存在6GB以上，就可以尝试在本地部署ChatGLM-6B。

随着对话轮数的增多，对应消耗显存也随之增长，由于采用了相对位置编码，理论上ChatGLM-6B支持无限长的context-length，但总长度超过2048（训练长度）后性能会逐渐下降。

模型量化会带来一定的性能损失，经过测试，ChatGLM-6B在4-bit量化下仍然能够进行自然流畅的生成。使用GPT-Q等量化方案可以进一步压缩量化精度/提升相同量化精度下的模型性能。

3 Demo和模型下载

3.1 安装Git LFS

sudo apt install git-lfs

3.2 Demo下载


mkdir THUDM
cd THUDM
git clone https://github.com/THUDM/ChatGLM-6B.git

3.3 模型下载

先下载模型实现。

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/THUDM/chatglm-6b

再下载模型参数文件，并将下载的文件替换到本地的chatglm-6b目录下。

3.4 文件目录

Demo和模型下载完成之后的文件目录如下图所示。

4 环境安装

在Nvidia GPU上运行，安装所需的依赖包，如transformers、gradio等。


cd ChatGLM-6B
pip install -r requirements.txt

5 运行

5.1 FP16

可以通过如下代码调用ChatGLM-6B模型来生成对话：


>>> from transformers import AutoTokenizer, AutoModel
>>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
>>> model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()
>>> model = model.eval()
>>> response, history = model.chat(tokenizer, "你好", history=[])
>>> print(response)
你好声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/251645
推荐阅读
article【ChatGPT本地部署-- ChatGLM】_本地部署chatglm...
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model 架构...
                                    赞
踩
articleChatGLM 本地部署搭建及测试运行_chatglm本地部署...
ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于General Language Model (G...
                                    赞
踩
articleMacBook Pro (15 英寸，2018) 运行 ChatGLM3-6B 大模型_macboo...
接上篇 在 Mac 上加速 PyTorch 训练，准备完 MPS 环境之后，开始在本地体验 ChatGLM3-6B 模型...
                                    赞
踩
article大模型笔记之-低成本部署CharGLM3|chatglm.cpp基于ggml 的纯 C++ 实现_c...
本文主要介绍基于chatglm.cpp项目仅使用cpu推理chatGLM3的教程。_chatglm3 低成本部署chat...
                                    赞
踩
articlechatglm的Windows部署与测试_8核cpu chatglm...
相对上一篇文章部署的alpaca-lora，本次部署的模型完全支持中文，且可以联系上下文。在本台机器上的运行速度比alp...
                                    赞
踩
article【wails】（6）：使用wails做桌面应用开发，使用gin+go-chatglm.cpp进行本地...
windows 安装 git 工具。【wails】（6）：使用wails做桌面应用开发，使用gin+go-chatglm...
                                    赞
踩
articleChatGLM 微调实战...
通过排序序列前两篇文章主要对 RM 和 RL 两部分进行了讲解和实验，但无数的经验向我们证明 —— 拥有一个好的 SFT...
                                    赞
踩
articleChatGLM模型（服务器部署+微调）_linux chatglm...
chatglm在Linux上的模型部署与微调经验_linux chatglmlinux chatglm         ...
                                    赞
踩
article对 ChatGLM-6B 做 LoRA Fine-tuning_chatglm lora...
ChatGLM-6B 是一个支持中英双语的对话语言模型，基于 GLM (General Language Model)。...
                                    赞
踩
articleChatGLM-6B 部署与 P-Tuning 微调实战-使用Pycharm实战_chatglm-6...
国产大模型Chatglm微调实战_chatglm-6b 微调chatglm-6b 微调                 ...
                                    赞
踩
articleChatGLM-6B的windows本地部署使用_chatglm-6b本地部署...
ChartGPT最近特别火，但是收费，而且国内访问不太方便，所以找了个类似的进行学习使用ChatGLM-6B，开源支持中...
                                    赞
踩
article本地部署 ChatGLM-6B_chatglm-6b-int4...
本地部署 ChatGLM-6B_chatglm-6b-int4chatglm-6b-int4              ...
                                    赞
踩
article本地部署清华大模型ChatGlm-6b、ChatGlm2-6b与ChatGlm3-6b（api接口、...
（1）百度网盘下载地址(下载文件中附了非常详细的安装教程)：https://pan.baidu.com/s/1KQNOl...
                                    赞
踩
相关标签
chatgpt
python
人工智能
ChatGLM
语言模型
AI
ChatGPT
笔记
c++
开发语言
windows
gin
golang
深度学习
机器学习
服务器
经验分享
pytorch
pycharm
ide
大模型