Ollama ubuntu多线程推理_ollama最大并发

作者：黑客灵魂 | 2024-07-09 18:35:21

踩

ollama最大并发

1. Ollama 安装

curl -fsSL https://ollama.com/install.sh | sh

安装Ollama

安装ollama后，在命令行中输入

ollama list

一般会有如下显示


(base) csk@csk-1:~$ ollama list
NAME               	ID          	SIZE  	MODIFIED

表明现在正在运行Ollama后端，但里面没有模型。

默认运行的后端默认线程为1，无法开启多线程，可以输入如下命令，关闭默认后台

systemctl stop ollama

然后在任意目录下新建ollama_serve.sh文件，填入如下命令

OLLAMA_NUM_PARALLEL=2 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=/path_you_want ollama serve

其中OLLAMA_NUM_PARALLEL控制后端可用最大线程数

OLLAMA_MAX_LOADED_MODELS控制ollama后端最大部署模型数量（同时部署多种模型）

OLLAMA_MODELS控制开启服务后模型下载位置

如果想要修改模型存储位置也可以参考这篇文章

4090可以开启16的并发线程以至于不过多影响推理运行速度，具体情况具体调整。

开启ollama服务后，可以直接使用ollama的命令从官网下载模型

可用llama3模型见官网

这里我使用的是llama3:8b-text-fp16，在终端输入

ollama pull llama3:8b-text-fp16

自动拉取模型

在终端输入

ollama run llama3:8b-text-fp16

即可在终端与llama3对话

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】