当前位置:   article > 正文

【Llama2-Chinese】搭建本地llama2-chinese中文模型步骤

llama2-chinese

下载Llama2-Chinese源代码和llama2-chinese模型

Llama2-Chinese工程文件地址
git clone https://github.com/FlagAlpha/Llama2-Chinese
llama2-chinese-7b 中文模型
git clone https://huggingface.co/FlagAlpha/Llama2-Chinese-7b-Chat/tree/main

打包成docker镜像,运行llama2-chinese

  1. 已安装centos的环境,准备好docker服务,安装cuda11.7.2及以上的驱动版本,此处不做另外说明
  2. 将llama2-chinese工程文件打包成docker镜像,llama2-chinese-7b的模型文件在镜像启动时,以挂载的方式实现
  3. 命令行启动镜像
    docker run --security-opt seccomp=unconfined -it -p 7860:7860 -v /root/cww-LLM/Llama2-Chinese-7b-Chat/:/root/Llama2-Chinese/Llama2-Chinese-7b-Chat container-id:tag
  4. 镜像运行成功后,进入镜像启动程序调用模型
    模型调用前,需要修改下本地模型调用路径(使用挂载至docker镜像内部的绝对路径),使用fp16精度:
    cd examples
    vim chat_gradio.py
    在这里插入图片描述

修改完成后保存,指定0号T4卡后台运行模型
CUDA_VISIBLE_DEVICES=0 python chat_gradio.py &
此处如果不指定T4卡,默认会使用所有的T4调用这个模型
以上,模型成功运行,进入地址 服务器IP:7860,可以进行中文页面对话,如下:
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/117325?site
推荐阅读
相关标签
  

闽ICP备14008679号