赞
踩
建议使用CUDA 11.4及以上(GPU用户、flash-attention用户等需考虑此选项)
ps:
1.python 3.8及以上版本 我用的python3.11.7
2. pytorch 2.0及以上版本 对着官网的pip下载就行
3. 照下面4和5运行也许,标准来说应该
git clone https://hub.yzuu.cf/QwenLM/Qwen.git
cd Qwen
pip install -r requirements.txt
4. pip install transformers==4.32.0 accelerate tiktoken einops scipy transformers_stream_generator==0.0.4 peft deepspeed
这个deepspeed特别坑,照这哥们进行操作,只不过我设置的环境变量为0还不太一样,我是os.environ['DISTUTILS_USE_SDK']='1' os.environ['DS_BUILD_AIO']='0' os.environ['DS_BUILD_OPS']='0' os.environ['DS_BUILD_EVOFORMER_ATTN']='0' os.environ['DS_BUILD_SPARSE_ATTN']='0'
,最后再进入该文件夹下python setup.py install
才装上的。
5. pip install auto-gptq optimum
6. git clone https://github.com/Dao-AILab/flash-attention cd flash-attention && pip install .
切记显卡RT30系列和A系列才装,RT20就别装了,人家只支持AmpereGPUS。对了这个是适配linux系统的,windows可以直接在这下载。
直接在modelscope平台下载就行,如下运行代码(先pip install modelscope哈),下载完找不到用everything搜一下。
from modelscope import snapshot_download
model_dir = snapshot_download('qwen/Qwen-1_8B-Chat-Int8')
from modelscope import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("qwen/Qwen-1_8B-Chat-Int8", revision='master', trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( "qwen/Qwen-1_8B-Chat-Int8", revision='master', device_map="auto", trust_remote_code=True ).eval() response, history = model.chat(tokenizer, "你好", history=None) print(response) # 你好!很高兴为你提供帮助。 # Qwen-1.8B-Chat现在可以通过调整系统指令(System Prompt),实现角色扮演,语言风格迁移,任务设定,行为设定等能力。 # Qwen-1.8B-Chat can realize roly playing, language style transfer, task setting, and behavior setting by system prompt. response, _ = model.chat(tokenizer, "你是谁", history=None, system="请用二次元可爱语气和我说话") print(response) # 你好啊!我是一只可爱的二次元猫咪哦,不知道你有什么问题需要我帮忙解答吗? response, _ = model.chat(tokenizer, "I works diligently", history=None, system="You will write beautiful compliments according to needs") print(response)
如上就运行成功了,接下来开始微调吧!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。