当前位置:   article > 正文

Ollama本地部署大模型_ollama 接口

ollama 接口


一、Ollama介绍

1. Ollama

Ollama 是一个开源框架,旨在为用户提供在本地运行大型语言模型的能力。
Ollama 支持多种主流模型的下载,也允许用户通过自定义导入的方式来使用自训练的模型。
Ollama 的优势在于其强大的功能和便捷的 API,能够为用户提供灵活的语言模型使用体验。

官网:https://ollama.com
支持的开源大模型:https://ollama.com/library

2. Open-webui

Open WebUI是一个可扩展的、功能丰富的、用户友好的WebUI。
支持各种LLM运行器,包括Ollama和与OpenAI兼容的APIs。

官网:https://github.com/open-webui/open-webui?tab=readme-ov-file

二、CPU运行Ollama

1. 启动

  • ollama
docker run -d --restart=always -p 3001:11434 -v /home/ollama:/root/.ollama --name ai-ollama docker.nju.edu.cn/ollama/ollama:0.1.38
  • 1
  • open-webui
docker run -d --restart=always -p 3002:8080 -e OLLAMA_API_BASE_URL=http://127.0.0.1:3001/api \
-e HF_ENDPOINT=https://hf-mirror.com -v /home/open-webui-ollama:/app/backend/data \
--name open-webui-ollama ghcr.nju.edu.cn/open-webui/open-webui:git-7a556b2-ollama
  • 1
  • 2
  • 3

2. 注册使用

  • open-webui网址
    http://ip:3000

  • 注册
    在这里插入图片描述

  • 修改语言
    右上角 Settings
    在这里插入图片描述

3. 下载模型

例如:wangshenzhi/llama3-8b-chinese-chat-ollama-q8
在这里插入图片描述

  • 阿里通义千问
    https://ollama.com/library/qwen

在这里插入图片描述

4. 聊天对话

CPU:E5-2683 v4, 回答用时:110秒,CPU占用:49%

在这里插入图片描述

三、GPU运行Ollama

1. GPU安装

  • 安装
sudo apt-get install -y cuda-drivers-535
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo apt-get update
sudo apt-get -y install nvidia-cuda-toolkit
sudo apt install -y nvidia-container-runtime
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • /etc/docker/daemon.json 添加内容
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "nvidia-container-runtime",
      "runtimeArgs": []
    }
  }
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 重启docker
systemctl daemon-reload && systemctl restart docker
  • 1
  • 重启后验证
docker run --rm --gpus all nvidia/cuda:11.0.3-base nvidia-smi
  • 1

在这里插入图片描述

2. 启动

  • ollama
docker run -d --restart=always -p 3001:11434 -v /home/ollama:/root/.ollama --gpus all --name ai-ollama docker.nju.edu.cn/ollama/ollama:0.1.38
  • 1
  • open-webui
docker run -d --restart=always -p 3002:8080 -e OLLAMA_API_BASE_URL=http://127.0.0.1:3001/api \
-e HF_ENDPOINT=https://hf-mirror.com -v /home/open-webui-ollama:/app/backend/data \
--gpus all --name ai-open-webui ghcr.nju.edu.cn/open-webui/open-webui:git-7a556b2-ollama
  • 1
  • 2
  • 3

3. 聊天对话

注册使用流程同上。
GPU:NVIDIA 2080 Ti 22 GB, 回答用时:17秒,GPU占用:80%,显存使用:8.3GB
在这里插入图片描述

四、Ollama接口

1. 运行模型

  • 需要8.3G显存
docker exec -it ai-ollama ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q8:latest
  • 1
  • 或 需要18G显存
docker exec -it ai-ollama ollama run qwen:32b
  • 1

2. 流式对话

http://ip:3001/api/chat

{
	"model": "qwen:32b",
	"messages": [
		{
			"role": "user",
			"content": "简要回答AI的学习路径"
		}
	]
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

在这里插入图片描述

3. 单体对话

http://ip:3001/api/chat

{
	"model": "qwen:32b",
	"messages": [
		{
			"role": "user",
			"content": "简要回答AI的学习路径"
		}
	],
	"stream": false
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

在这里插入图片描述

4. 带历史记录对话

http://ip:3001/api/chat

{
	"model": "qwen:32b",
	"messages": [
		{
			"role": "user",
			"content": "简要回答AI的学习路径"
		},
		{
			"role": "assistant",
			"content": "再概括一些"
		}
	],
	"stream": false
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/736335
推荐阅读
相关标签
  

闽ICP备14008679号