赞
踩
在本地部署大模型,不用担心网络问题或者付费与GPT对话,并且你可以基于base LLM微调模型,使其能在垂直领域发挥更大的作用。最近收到一个任务是做一个智能体(Agent),做Agent必定是缺少不了LLM的,由此引出我需要在本地部署一个大模型。下面我将逐步讲解如何在本地部署LLLM。
硬件配置(个人PC):CPU: intel i7-10700H GPU: GTX1650Ti 内存:16GB
其实仅仅是部署本地不做微调和训练的话也不太需要GPU(我看网上说微调大模型至少20GB显存,我这肯定不够用),至少我在部署直至问大模型问题都没有发现GPU发挥左右,不过后续进行微调和训练也不会在我的个人PC,所以也不是问题,今天只是出一个部署教程,方便日后在其他地方部署时查阅。
Ollama是一个专为在本地环境中运行和定制大型语言模型而设计的工具。它提供了一个简单而高效的接口,用于创建、运行和管理这些模型,同时还提供了一个丰富的预构建模型库,可以轻松集成到各种应用程序中。我们可以在其模型库下载任何我们想使用的大模型,包括目前llama3,qwen2,gemma2等等各种开源模型,并且其更新速度贼快。直接前往ollama官网下载即可(点击即可跳转)。界面如下:
安装过程无脑点击下一步即可,也可以自己设置安装位置,看个人需求。需要注意的是,如果你不想让你的C盘爆盘(后续下载的模型文件默认保存C盘)最好在安装完后配置环境变量。 变量名OLLAMA_MODELS,变量值设置为想要保存文件夹的路径即可(注意路径最好不要有中文)。以下是我配置的环境变量:
Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。Docker是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app),更重要的是容器性能开销极低。可以前往Docker官网下载(科学上网),觉得慢了可以去Docker中文网下载。
Docker官网界面如下:
Docker中文网界面如下:
直接安装下载即可,也没有任何困难。
仍然是为了防止爆盘,安装Docker启动后需要更改其资源保存位置。操作如下:
其实到这里已经可是开始部署模型了,可以在cmd窗口进行对话了,但是为了使其更加直观并且便于操作,我们使用Open WebU给其添加界面。直接前往Open WebUI官网查看命令对应运行即可。界面如下:
如果你懒得折腾并且又正好是windows系统,那么你有福了。我已经给你整理好了:
使用GPU运行:
docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama
使用CPU运行:
docker run -d -p 3000:8080 -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama
其中端口和容器名可以自己进行更改设置。
运行后但返回Docker,如果能看到如下界面所示(图中本人GPU和CPU都部署了,无需在意,自己部署时选择一个即可),即表明容器创建成功,然后前往浏览器访问3000:8000即可(如果自己更改了端口则前往自己更改的端口)。
随后首次进入可能需要注册,很简单,直接跳过。注册完登陆后界面大致如下:
此时发现选择模型是空白的,无法选择,那是因为我们还没有下载模型至本地。下载流程如下:
点击下载后等待下载完成即可。然后返回对话界面即可选择模型进行对话。
对话反应速度因电脑配置而异,可以看到对话过程中我的电脑内存几乎要爆掉,不过对话速度还是能够接受的,建议大家使用更大内存电脑试试。
OK到这里就结束了,恭喜你已经学会了如何在本地部署大模型!更多功能请自行进行探索。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。