赞
踩
拉取镜像:
docker pull ollama/ollama
使用CPU服务器运行docker:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
使用GPU服务器运行docker:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
如果要把docker文件挂在到别的路径使用如下命令:
docker run -d --gpus=all -v /data/docker/ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
会报错:
runtime/cgo: pthread_create failed: Operation not permitted
需要在命令中添加 --privileged 参数。
最终命令如下:
docker run --privileged -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
启动docker之后,进入docker容器:docker exec -it ollama /bin/bash
接下来就可以使用ollama应用了:
运行 llama3 大模型:
ollama run llama3
如下图所示,模型已经启动
如果运行本地/自定义模型:
比如我使用huggingface中下载GGUF格式模型,该框架它只支持这种格式。
地址如下:https://huggingface.co/zhouzr/Llama3-8B-Chinese-Chat-GGUF/tree/main
下载之后放入绑定的宿主的路径中:
接下来创建配置文件Modelfile:
FROM /root/.ollama/myfile/Llama3-8B-Chinese-Chat.q3_k_m.GGUF
运行命令:
ollama create llamaChinese -f Modelfile;
ollama run llamaChinese
运行成功就可以对话了。
使用api请求流式输出:
- curl http://localhost:11434/api/generate -d '{
- "model": "llama3",
- "prompt": "Why is the sky blue?",
- "stream": true
- }'
不使用流式输出的api请求:
- curl http://localhost:11434/api/generate -d '{
- "model": "llama3",
- "prompt": "Why is the sky blue?",
- "stream": false
- }'
聊天请求api/chat:
- curl http://localhost:11434/api/chat -d '{
- "model": "llama3",
- "messages": [
- {
- "role": "user",
- "content": "why is the sky blue?"
- }
- ]
- }'
携带具有历史聊天信息的请求:
- curl http://localhost:11434/api/chat -d '{
- "model": "llama3",
- "messages": [
- {
- "role": "user",
- "content": "why is the sky blue?"
- },
- {
- "role": "assistant",
- "content": "due to rayleigh scattering."
- },
- {
- "role": "user",
- "content": "how is that different than mie scattering?"
- }
- ]
- }'
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。