赞
踩
https://www.bilibili.com/video/BV1pF4m1u7Qp/?vd_source=4b290247452adda4e56d84b659b0c8a2
【Dify知识库】(12):在autodl上,使用xinference部署chatglm3,embedding,rerank大模型,并在Dify上配置成功
项目地址:
https://inference.readthedocs.io/zh-cn/latest/
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。
pip3 install "xinference[all]"
# 设置好环境变量:
export XINFERENCE_MODEL_SRC=modelscope
export XINFERENCE_HOME=/root/autodl-tmp
# 首先启动 xinference-local :
xinference-local --host 0.0.0.0 --port 6006
服务启动成功:
2024-01-30 22:17:07,415 xinference.core.supervisor 2921 INFO Xinference supervisor 0.0.0.0:43001 started
2024-01-30 22:17:07,494 xinference.core.worker 2921 INFO Starting metrics export server at 0.0.0.0:None
2024-01-30 22:17:07,498 xinference.core.worker 2921 INFO Checking metrics export server...
2024-01-30 22:17:08,166 xinference.core.worker 2921 INFO Metrics server is started at: http://0.0.0.0:39145
2024-01-30 22:17:08,167 xinference.core.worker 2921 INFO Xinference worker 0.0.0.0:43001 started
2024-01-30 22:17:08,167 xinference.core.worker 2921 INFO Purge cache directory: /root/autodl-tmp/cache
2024-01-30 22:17:11,828 xinference.api.restful_api 2892 INFO Starting Xinference at endpoint: http://0.0.0.0:6006
等服务器启动成功:
# 端口修改了重新设置环境变量
export XINFERENCE_ENDPOINT=http://127.0.0.1:6006
# 部署chatglm3
xinference launch --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization 8-bit
# 部署 bge-large-zh embedding
xinference launch --model-name bge-large-zh --model-type embedding
# 部署 bge-reranker-large rerank
xinference launch --model-name bge-reranker-large --model-type rerank
没有报错,就是启动成功了
然后就可以在dify 中进行配置了:
成功后效果:
但是 Dify 运行报错,估计下一个版本就会修复了:
但是测试接口,都是支持 stream 的:
测试接口
curl http://192.168.100.106:8443/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "chatglm3",
"messages": [{"role": "user", "content": "北京景点"}],
"temperature": 0.7,"stream": true
}'
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。