本地快速部署谷歌开放模型Gemma教程(基于Ollama)_本地部署gemma

作者：你好赵伟 | 2024-03-07 22:23:30

踩

本地部署gemma

本地快速部署谷歌开放模型Gemma教程（基于Ollama）

一、介绍 Gemma
- 1.1 关键细节
- 1.2 尺寸性能
二、部署 Gemma
- 2.1 部署工具
- 2.1 部署步骤
三、体验 Gemma
四、总结

一、介绍 Gemma

Gemma是一系列轻量级、最先进的开放式模型，采用与创建Gemini模型相同的研究和技术而构建。Gemma 由 Google DeepMind 和 Google 的其他团队开发，其灵感来自 Gemini，其名称反映了拉丁语gemma，意思是“宝石”。除了模型权重之外，还发布了工具来支持开发人员创新、促进协作并指导负责任地使用 Gemma 模型。

在这里插入图片描述

1.1 关键细节

Gemma发布了两种尺寸的模型配重：Gemma 2B 和 Gemma 7B。每个尺寸都发布了经过预训练和指令调整的变体。
预先训练和指令调整的 Gemma 模型可以在您的笔记本电脑、工作站或 Google Cloud 上运行，并可轻松部署在Vertex AI和Google Kubernetes Engine (GKE) 上。

1.2 尺寸性能

Gemma 模型与Gemini共享技术和基础设施组件，Gemini 是我们当今广泛使用的最大、功能最强大的 AI 模型。与其他开源大模型相比，这使得 Gemma 2B 和 7B 能够在其尺寸范围内实现同类最佳的性能。Gemma 模型能够直接在开发人员笔记本电脑或台式计算机上运行。值得注意的是，Gemma 在关键基准上超越了更大的模型。
在这里插入图片描述

二、部署 Gemma

2.1 部署工具

使用 Ubuntu 环境 + Ollama + Open WebUI 二个工具部署Gemma，Ollama用来运行模型，Open WebUI 用于可视化操作使用。

Ollama：https://github.com/ollama/ollama

Ollama 是一个在本地启动并运行大型语言模型的工具，自动下载大模型，开箱即用，Ollama 也支持大量的模型库。注意：您应该至少有 8 GB 可用 RAM 来运行 7B 模型，16 GB 来运行 13B 模型，32 GB 来运行 33B 模型。

Model	Parameters	Size	Download
Llama 2	7B	3.8GB	`ollama run llama2`
Mistral	7B	4.1GB	`ollama run mistral`
Dolphin Phi	2.7B	1.6GB	`ollama run dolphin-phi`
Phi-2	2.7B	1.7GB	`ollama run phi`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
Llama 2 13B	13B	7.3GB	`ollama run llama2:13b`
Llama 2 70B	70B	39GB	`ollama run llama2:70b`
Orca Mini	3B	1.9GB	`ollama run orca-mini`
Vicuna	7B	3.8GB	`ollama run vicuna`
LLaVA	7B	4.5GB	`ollama run llava`
Gemma	2B	1.4GB	`ollama run gemma:2b`
Gemma	7B	4.8GB	`ollama run gemma:7b`

Open WebUI ：https://github.com/open-webui/open-webui

Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 WebUI，适用于各种 LLM 运行器，支持的 LLM 运行器包括 Ollama 和 OpenAI 兼容的 API。

2.1 部署步骤

安装 Ollama 工具

curl -fsSL https://ollama.com/install.sh | sh
1

使用 Ollama 拉取并运行 Gemma 7B 模型

ollama run gemma:7b
1

等待模型下载完毕，模型就会自动运行了，然后你可以在终端输入你的提示词进行和大模型交互了，输出/bye退出交互。

关于关闭ollama：通过Ctrl+d只能推出命令行，ollama服务还在运行，通过pgrep ollama获取进程id，再通过kill杀死进程，但是ollama会自动重启服务，测试systemctl stop ollama.service此命令可以停止运行ollama

在这里插入图片描述
3. 使用 Docker 安装 Open WebUI 工具

docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_API_BASE_URL=http://127.0.0.1:11434/api --name open-webui --restart always ghcr.io/open-webui/open-webui:main
1

等待拉取镜像，完成后自动启动open-webui容器，启动完成后，就可以在浏览器中通过http://localhost:8080/ 来访问，首先需要注册帐号，完成登录后就可以使用了。

在这里插入图片描述

点击界面上方的Select a model，会自动识别到Gemma 7B模型，这样就可以使用此模型直接对话了。

三、体验 Gemma

默认英文语言输出

在这里插入图片描述

回答中文问题，上下文感知不太好

在这里插入图片描述
测试代码能力，基本算法都能输出，很准确

在这里插入图片描述

四、总结

Gemma 本地就可以运行，不需要上传至云端处理，全部离线本地就可以操作完成。不用担心隐私问题。速度很快，很旧的电脑都能跑起来。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/207752