基于xinference推理引擎 + glm4-9b-chat模型的本地化部署探索_xinference使用glm4-chat-1m

作者：笔触狂放9 | 2024-08-13 06:05:13

踩

xinference使用glm4-chat-1m

【备注】从langchain-chatchat v0.3开始，所有的模型配置，均由推理模型（如：xinference ）进行加载和启动。

xinference 中配置并启动模型

1、启动xinference服务

xinference-local

查看支持的模型

xinference registrations --model-type LLM

2、执行transformer推理

xinference launch --model-name custom-glm4-chat --model-format pytorch --model-engine Transformers

【备注】可以用-u自定模型的uid名字

xinference launch --model-name custom-glm4-chat -u glm4-chat --model-format pytorch --model-engine Transformers

4、启动xinference 的命令行方式对话

xinference chat --model-uid glm4-chat

3、配置embedding

执行如下命令加载并执行embedding模型

xinference launch --model-name bge-large-zh-v1.5 --model-type embedding

出现如下提示，表示执行成功

【备注】可以用-u指定模型的uid名字

xinference launch --model-name bge-large-zh-v1.5.self -u bge-large-zh-v1.5 --model-type embedding

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/973535?site