当前位置:   article > 正文

Centos上用Xinference部署大模型!_xinference 从modelscope下载模型

xinference 从modelscope下载模型

创建单独环境:

conda create -n xinference python=3.10

安装前需要配置gcc:

centos:

yum install centos-release-scl && yum install devtoolset-11-gcc* && scl enable devtoolset-11 bash && gcc -v

ubuntu:

  1. sudo apt update
  2. sudo apt install build-essential

可能会报错:

Reading package lists... Done Building dependency tree        Reading state information... Done build-essential is already the newest version (12.8ubuntu1.1). 0 upgraded, 0 newly installed, 0 to remove and 248 not upgraded.

就是没有更新APT库
更新一下就好了

  1. sudo apt-get update
  2. sudo apt-get upgrade

或将python版本降低至3.8. 

Xinference 安装(下载时间很长耐心等待): 

pip install "xinference[all]"

 安装成功!

启动服务:

XINFERENCE_HOME=/home/xuhui/tmp/xinference:

通过配置环境变量来更改模型下载目录

XINFERENCE_MODEL_SRC=modelscope:

设置从从 modelscope 下载模型 因为默认从  Hugging Face 下载模型 服务器没有设置代理的话会失败!

xinference-local:

启动命令

--host 0.0.0.0 --port 9997 :

设置本地ip及端口号

XINFERENCE_HOME=/home/xuhui/tmp/xinference XINFERENCE_MODEL_SRC=modelscope xinference-local --host 0.0.0.0 --port 9997

服务启动成功!

另开端口执行模型下载启动命令:

xinference launch --model-name chatglm3 --size-in-billions 6 --model-format ggmlv3 --quantization q4_0 --model-engine llama.cpp

 开始下载模型!

下载完成!

调用测试成功!

  1. from xinference.client import RESTfulClient
  2. client = RESTfulClient("http://127.0.0.1:9997")
  3. model = client.get_model("chatglm3")
  4. print(model.generate(
  5. prompt="What is the largest animal?",
  6. generate_config={
  7. "max_tokens": 512,
  8. "temperature": 0.7
  9. }
  10. ))

至此模型已完全部署成功,后面可以调用api,或仿open风格api都可调用!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/807899
推荐阅读
相关标签
  

闽ICP备14008679号