当前位置:   article > 正文

Ollama ubuntu多线程推理_ollama最大并发

ollama最大并发

1. Ollama 安装

Ollama官网:Download Ollama on Linuxicon-default.png?t=N7T8https://ollama.com/download/linux使用命令

curl -fsSL https://ollama.com/install.sh | sh

安装Ollama

2. 重新配置Ollama

安装ollama后,在命令行中输入

ollama list

一般会有如下显示

  1. (base) csk@csk-1:~$ ollama list
  2. NAME ID SIZE MODIFIED

表明现在正在运行Ollama后端,但里面没有模型。

默认运行的后端默认线程为1,无法开启多线程,可以输入如下命令,关闭默认后台

systemctl stop ollama

然后在任意目录下新建ollama_serve.sh文件,填入如下命令

OLLAMA_NUM_PARALLEL=2 OLLAMA_MAX_LOADED_MODELS=1 OLLAMA_MODELS=/path_you_want ollama serve

其中OLLAMA_NUM_PARALLEL控制后端可用最大线程数

OLLAMA_MAX_LOADED_MODELS控制ollama后端最大部署模型数量(同时部署多种模型)

OLLAMA_MODELS控制开启服务后模型下载位置

如果想要修改模型存储位置也可以参考这篇文章

Ollama模型下载路径替换!靠谱!(Linux版本)-CSDN博客

4090可以开启16的并发线程以至于不过多影响推理运行速度,具体情况具体调整。

3. 拉取模型

开启ollama服务后,可以直接使用ollama的命令从官网下载模型

可用llama3模型见官网

https://ollama.com/library/llama3

这里我使用的是llama3:8b-text-fp16,在终端输入

ollama pull llama3:8b-text-fp16

自动拉取模型

4. 在终端对话

在终端输入

ollama run llama3:8b-text-fp16

即可在终端与llama3对话

参考网址

ollama官网: https://ollama.com/

ollama Git: https://github.com/ollama/ollama

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/803333
推荐阅读
相关标签
  

闽ICP备14008679号