【LocalAI】（3）：终于研究明白了！超级简单！在linux上使用一个二进制文件LocalAI，成功运行embeddings和qwen-1.5大模型，速度特别快，有gitee配置说明_qwen embedding

作者：在线问答5 | 2024-07-08 12:42:35

踩

qwen embedding

1，localai 项目说明

LocalAI 是一个用于本地推理的，与 OpenAI API 规范兼容的 REST API。
它允许您在本地使用消费级硬件运行 LLM（不仅如此），支持与 ggml 格式兼容的多个模型系列。支持CPU硬件/GPU硬件。

视频地址：

添加链接描述

【LocalAI】（3）：超级简单！在linux上使用一个二进制文件，成功运行embeddings和qwen-1.5大模型，速度特别快，有gitee配置说明

模型启动方法：
https://localai.io/models/

项目地址：
https://gitee.com/fly-llm/localai-run-llm

1，下载二进制文件，支持linux,mac系统

下载二进制文件：
https://github.com/mudler/LocalAI/releases

在这里插入图片描述

1，创建embedding 接口

curl http://localhost:8080/models/apply -H "Content-Type: application/json" -d '{
   "url": "https://gitee.com/fly-llm/localai-run-llm/raw/master/model-gallery/bert-embeddings.yaml",
   "name": "text-embedding-ada-002"
 }'
1
2
3
4

测试：

curl -X 'POST' http://0.0.0.0:8080/v1/embeddings \
 -H "Content-Type: application/json" \
 -d '{
  "input": "测试ebmeddings",
  "model": "text-embedding-ada-002"
}'
1
2
3
4
5
6

3，大模型 qwen1.5-0.5b-chat，速度快

参考地址：
https://github.com/mudler/LocalAI/issues/1110

curl http://localhost:8080/models/apply -H "Content-Type: application/json" -d '{
   "url": "https://gitee.com/fly-llm/localai-run-llm/raw/master/model-gallery/qwen1.5-0.5b.yaml",
   "name": "qwen1.5-0.5b-chat"
 }'
1
2
3
4

测试接口

curl -X 'POST' 'http://0.0.0.0:8080/v1/chat/completions' \
-H 'Content-Type: application/json' -d '{
    "model": "qwen1.5-0.5b-chat",
    "messages": [
        {
            "role": "user",
            "content": "北京景点?"
        }
    ],
    "max_tokens": 512,
    "temperature": 0.7
}'
1
2
3
4
5
6
7
8
9
10
11
12

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】