爱喝兽奶帝天荒

这个屌丝很懒，什么也没留下！

热门标签

ChatGLM3-6B大模型的部署与使用教程（保姆级）

作者：爱喝兽奶帝天荒 | 2024-07-29 06:09:17

踩

chatglm3-6b

ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，具有对话流畅、部署门槛低等众多优秀特性。本文将从零开始，讲解ChatGLM3-6b的部署及使用，全文一共2000多字，篇幅较长，主要包括以下六个部分：

一、下载项目代码和模型文件

二、安装miniconda

三、创建conda环境

四、根据cuda版本来选择合适的pytorch版本

五、运行chatglm相关的服务

六、FastGPT知识库问答使用本地 chatglm服务

本文实验的配置：

GPU：英伟达 3090 24G显存

操作系统：centos 7

一、下载项目代码和模型文件

1、代码地址：

https://github.com/THUDM/ChatGLM3

2、下载对应的模型文件

modelscope对应的模型地址：

https://modelscope.cn/models/ZhipuAI/chatglm3-6b/files

可以使用如下的 git命令进行下载：

git lfs install``git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git
1

文件大小11.64G，根据个人网速不同，本人大约等待30分钟后，下载完成；

下载完成后，将代码和对应的模型文件传到服务器上，作者是将模型文件放在项目代码的根目录。

二、安装miniconda

-------若已安装miniconda或者conda可以跳过这节------------

1、安装最新版本的 miniconda

wget http://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
1

2、执行安装

bash Miniconda3-latest-Linux-x86_64.sh
1

输入enter ，一路yes即可

安装完成后，关闭shell窗口，重新打开，就可以看到已经装好了

三、创建conda环境

创建一个conda环境，用于安装大模型运行的依赖包

3.1 首先看到requirements.txt，可以看到官网推荐的torch版本>=2.0，但是当torch==1.13.1时也可以运行，看你们自己的选择。

3.2 选择合适的python的版本

python与pytorch版本的对应关系如下：

https://github.com/pytorch/vision#installation

3.3 选择的 python版本大于3.8，使用如下命令进行创建conda环境。

conda create --name py3811 python==3.8.11
1

3.4 激活创建好的conda环境：

conda activate py3811
1

四、根据显卡cuda的版本来选择合适的pytorch版本

4.1、查看显卡信息

nvidia-smi
1

ps:如何安装cuda及cudnn，可自行百度安装，本文不再讲述。

从官网选择合适的pytorch版本：

地址：https://pytorch.org/get-started/previous-versions/
1

因为作者的显卡cuda版本为11.6，所以选择 torch==1.13.1的版本；

4.2 cuda为11.6 的pytorch安装命令

conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia
1

如果你的显卡cuda版本为11.7或者11.8，你可以选择torch>=2.0的版本

4.3 cuda为11.7或者11.8的pytorch安装命令

# CUDA 11.7``conda install pytorch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 pytorch-cuda=11.7 -c pytorch -c nvidia``# CUDA 11.8``conda install pytorch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia
1

4.4 本文采用cuda为11.6 的pytorch安装命令

4.5 进入代码目录，安装依赖包

作者的torch版本为1.13.1，所以删除掉 requirements.txt 中的红框部分，如果你的torch大于2.0 ，则不需要删除这一行。

4.6 执行如下命令，批量安装依赖包

pip install -r requirements.txt  -i  https://pypi.tuna.tsinghua.edu.cn/simple/
1

安装完成！

五、运行chatglm相关的服务

5.1、交互式对话程序：cli_demo.py

（1）修改模型文件加载的路径

模型文件放在代码的根目录。

本文将模型文件放在代码的同级目录，所以修改下cli_demo.py 中模型文件存放的位置，填入模型文件所在的相对路径或者绝对路径。

#原始路径``tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True)``model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).cuda()``#改为下面的路径``tokenizer = AutoTokenizer.from_pretrained("chatglm3-6b", trust_remote_code=True)``model = AutoModel.from_pretrained("chatglm3-6b", trust_remote_code=True).cuda()
1

（2）运行简单交互对话的程序：

python  cli_demo.py
1

启动服务后，显存大概占用了 12G左右。

5.1、启动openai的接口服务：openai_api.py

（1）同样需要修改模型路径

（2）修改代码

将openai_api.py文件中3处

chunk.json(exclude_unset=True, ensure_ascii=False)
1

替换为

chunk.model_dump_json(exclude_unset=True,exclude_none=True)
1

改为如下图红框位置所示：

（3）启动服务

python openai_api.py
1

（4）利用requests请求调用chatglm的接口服务：

openai_url=“http://ip:8000/v1/chat/completions”

ip:chatglm部署的ip

完整代码如下：

#!/usr/bin/env python``# -*- coding: UTF-8 -*-``"""``@Project ：chatgpt``@File    ：openai_function.py``@Author  ：aixiaoxin``@Date    ：2023/10/27 17:28``"""``import requests``   ``def request_chatgpt_function():`    `# 通用方法：利用requests 请求调用`    `question = "你是谁？"`    `openai_url="http://ip:8000/v1/chat/completions"  # 可以替换为任何代理的接口，官网地址 https://api.openai.com/v1/chat/completions`    `OPENAI_API_KEY="sk-amd6pTaiXrJ6U8VjFb7dB439A97542D5A2E4Ed38C1BaC9D2" # openai的key，此处不需要填写`    `header={"Content-Type": "application/json","Authorization": "Bearer " +OPENAI_API_KEY}`    `data={`        `"model": "gpt-3.5-turbo",`        `"messages": [`          `{`            `"role": "system",`            `"content": "You are a helpful assistant."`          `},`          `{`            `"role": "user",`            `"content": question`          `}`        `],`        `"stream":False`      `}`    `print("问题:{}".format(question))`    `response=requests.post(url=openai_url,headers=header,json=data).json()`    `print("完整的响应结果:{}".format(response))`    `answer = response["choices"][0]["message"]["content"]`    `print("答案:{}".format(answer))``   ``   ``   ``if __name__ == "__main__":`    `request_chatgpt_function() # 通用方法：利用requests 请求调用
1

运行结果：

（5）利用openai接口流式调用chatglm的服务：

openai.api_base = “http://ip:8000/v1”

ip:填入chatglm部署的服务器的ip

完整代码如下：

#!/usr/bin/env python``# -*- coding: UTF-8 -*-``"""``@Project ：chatgpt_project``@File    ：chatglm_request.py``@Author  ：aixiaoxin``@Date    ：2023/10/29 14:32``"""``import openai``if __name__ == "__main__":`    `openai.api_base = "http://ip:8000/v1"`    `openai.api_key = "none"`    `for chunk in openai.ChatCompletion.create(`        `model="chatglm3-6b",`        `messages=[`            `{"role": "user", "content": "你好"}`        `],`        `stream=True`    `):`        `if hasattr(chunk.choices[0].delta, "content"):`            `print(chunk.choices[0].delta.content, end="", flush=True)
1

运行截图：

六、FastGPT知识库问答使用本地 chatglm服务

先运行上一节中的接口服务：python openai_api.py

找到fastgpt项目中的

files\deploy\fastgpt\docker-compose.yml 文件

将OPEN_BASE_URL 改为如下地址：

http://ip:8000/v1

ip：表示大模型部署服务器的ip

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】