当前位置:   article > 正文

ChatGLM2-6B 部署_chatglm2-6b部署

chatglm2-6b部署

引言

这是ChatGLM2-6B 部署的阅读笔记,主要介绍了ChatGLM2-6B模型的部署和一些原理的简单解释。

ChatGLM-6B

它是单卡开源的对话模型。

  • 充分的中英双语预训练

  • 较低的部署门槛

    • FP16半精度下,需要至少13G的显存进行推理,甚至可以进一步降低到10G(INT8)和6G(INT4)
  • 更长的序列长度 ChatGLM-6B 序列长度达2048;ChatGLM2-6B达8192;

  • 人类意图对齐训练 使用了监督微调、反馈自助、人类反馈强化学习等方式

ChatGLM-6B本地部署

1.克隆ChatGLM2-6B

git clone https://github.com/THUDM/ChatGLM2-6B
  • 1

2.CD进去之后,安装依赖包

pip install -r requirements.txt 
  • 1

它会安装以下依赖:

protobuf
transformers==4.30.2
cpm_kernels
torch>=2.0
gradio
mdtex2html
sentencepiece
accelerate
sse-starlette
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

3.下载模型权重

有两种方法,第一种就是利用transformers包去加载:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)
  • 1
  • 2
Downloading (…)enization_chatglm.py: 100%|████████████████████████████████████████████████████████████████████| 10.1k/10.1k [00:00<00:00, 1.61MB/s]
A new version of the following files was downloaded from https://huggingface.co/THUDM/chatglm2-6b:
- tokenization_chatglm.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
Downloading tokenizer.model: 100%|████████████████████████████████████████████████████████████████████████████| 1.02M/1.02M [00:00<00:00, 2.22MB/s]
  • 1
  • 2
  • 3
  • 4
  • 5
model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device="cuda")
  • 1
Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:16<00:00,  2.41s/it]
  • 1

由于博主已经下载过了,这里直接加载就好了,当然前提是你的显存和内存足够。

这样模型就下载好了,下面我们来体验以下:

model = model.eval()
# 传入tokenizer, 消息 和 历史
response, history = model.chat(tokenizer, "你好", history=[])
print(response)
  • 1
  • 2
  • 3
  • 4
你好
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/460643
推荐阅读
相关标签