当前位置:   article > 正文

【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功,3类接口xinference都是支持部署的_dify autodl

dify autodl

1,演示视频

https://www.bilibili.com/video/BV1pF4m1u7Qp/?vd_source=4b290247452adda4e56d84b659b0c8a2

【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功

2,在autodl上使用xinference部署大模型非常方法

项目地址:
https://inference.readthedocs.io/zh-cn/latest/

Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。

3,在 autodl 上部署特别简单

pip3 install "xinference[all]"

# 设置好环境变量:
export XINFERENCE_MODEL_SRC=modelscope
export XINFERENCE_HOME=/root/autodl-tmp

# 首先启动 xinference-local :
xinference-local --host 0.0.0.0 --port 6006
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

服务启动成功:

2024-01-30 22:17:07,415 xinference.core.supervisor 2921 INFO     Xinference supervisor 0.0.0.0:43001 started
2024-01-30 22:17:07,494 xinference.core.worker 2921 INFO     Starting metrics export server at 0.0.0.0:None
2024-01-30 22:17:07,498 xinference.core.worker 2921 INFO     Checking metrics export server...
2024-01-30 22:17:08,166 xinference.core.worker 2921 INFO     Metrics server is started at: http://0.0.0.0:39145
2024-01-30 22:17:08,167 xinference.core.worker 2921 INFO     Xinference worker 0.0.0.0:43001 started
2024-01-30 22:17:08,167 xinference.core.worker 2921 INFO     Purge cache directory: /root/autodl-tmp/cache
2024-01-30 22:17:11,828 xinference.api.restful_api 2892 INFO     Starting Xinference at endpoint: http://0.0.0.0:6006
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

4,注册/部署chatglm3,embedding,rerank模型

等服务器启动成功:

# 端口修改了重新设置环境变量
export XINFERENCE_ENDPOINT=http://127.0.0.1:6006
# 部署chatglm3
xinference launch --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization 8-bit
# 部署 bge-large-zh embedding
xinference launch --model-name bge-large-zh --model-type embedding
# 部署 bge-reranker-large rerank
xinference launch --model-name bge-reranker-large --model-type rerank
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

没有报错,就是启动成功了

然后就可以在dify 中进行配置了:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

成功后效果:
在这里插入图片描述

5,总结

但是 Dify 运行报错,估计下一个版本就会修复了:
在这里插入图片描述

但是测试接口,都是支持 stream 的:

测试接口

curl http://192.168.100.106:8443/v1/chat/completions   -H "Content-Type: application/json" -d '{
     "model": "chatglm3",
     "messages": [{"role": "user", "content": "北京景点"}],
     "temperature": 0.7,"stream": true
}'

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/351386
推荐阅读
相关标签
  

闽ICP备14008679号