当前位置:   article > 正文

【你的第一个大模型部署,Qwen1_8B-Chat-Int8,8G甚至4G显卡即可运行】_qwen:4b需要多少gpu

qwen:4b需要多少gpu

部署第一个小模型,为以后finetuning微调应用打下基础

一、环境部署,详见modelscope或者github

1.硬件要求

建议使用CUDA 11.4及以上(GPU用户、flash-attention用户等需考虑此选项)
ps:

  • 这是硬件的驱动,我把它归为此类了,网上装CUDA和cuDNN教程很多了,装12.1没毛病。
  • 反正就是显卡越牛逼越行,我的RTX2070在后面装fast-attention装上用不了,需要RTX30系列或者A系列。

2.软件环境依赖要求

1.python 3.8及以上版本 我用的python3.11.7
2. pytorch 2.0及以上版本 对着官网的pip下载就行
3. 照下面4和5运行也许,标准来说应该
git clone https://hub.yzuu.cf/QwenLM/Qwen.git
cd Qwen
pip install -r requirements.txt
4. pip install transformers==4.32.0 accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed
这个deepspeed特别坑,照这哥们进行操作,只不过我设置的环境变量为0还不太一样,我是os.environ['DISTUTILS_USE_SDK']='1' os.environ['DS_BUILD_AIO']='0' os.environ['DS_BUILD_OPS']='0' os.environ['DS_BUILD_EVOFORMER_ATTN']='0' os.environ['DS_BUILD_SPARSE_ATTN']='0',最后再进入该文件夹下python setup.py install才装上的。
5. pip install auto-gptq optimum
6. git clone https://github.com/Dao-AILab/flash-attention cd flash-attention && pip install .切记显卡RT30系列和A系列才装,RT20就别装了,人家只支持AmpereGPUS。对了这个是适配linux系统的,windows可以直接在这下载

RT20就别装了,人家只支持Ampere GPUS

3.下载模型

直接在modelscope平台下载就行,如下运行代码(先pip install modelscope哈),下载完找不到用everything搜一下。

from modelscope import snapshot_download
model_dir = snapshot_download('qwen/Qwen-1_8B-Chat-Int8')
  • 1
  • 2

二、测试运行代码

from modelscope import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen-1_8B-Chat-Int8", revision='master', trust_remote_code=True)

model = AutoModelForCausalLM.from_pretrained(
    "qwen/Qwen-1_8B-Chat-Int8", revision='master',
    device_map="auto",
    trust_remote_code=True
).eval()
response, history = model.chat(tokenizer, "你好", history=None)
print(response)
# 你好!很高兴为你提供帮助。

# Qwen-1.8B-Chat现在可以通过调整系统指令(System Prompt),实现角色扮演,语言风格迁移,任务设定,行为设定等能力。
# Qwen-1.8B-Chat can realize roly playing, language style transfer, task setting, and behavior setting by system prompt.
response, _ = model.chat(tokenizer, "你是谁", history=None, system="请用二次元可爱语气和我说话")
print(response)
# 你好啊!我是一只可爱的二次元猫咪哦,不知道你有什么问题需要我帮忙解答吗?

response, _ = model.chat(tokenizer, "I works diligently", history=None, system="You will write beautiful compliments according to needs")
print(response)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

在这里插入图片描述
如上就运行成功了,接下来开始微调吧!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/632815
推荐阅读
相关标签
  

闽ICP备14008679号