当前位置:   article > 正文

Ollama+qwen2实现开源大模型本地化部署_ollama qwen2

ollama qwen2

本文将介绍如何使用ollama+qwen2实现对开源大模型的本地化部署,让每个有技术能力的企业都可以“套壳”大模型,在各自的专业领域内“遥遥领先“。在本案例中我将使用两个开源的软件:

  • ollama:是一个轻量级可扩展的框架,它可以轻易地帮你管理本地的众多开源大模型,并支持众多的开源大模型,包括llama 3 、qwen2、gemma、codegemma、Mistral等,并允许用户自定义和创建自己的模型。
  • open-webui:是一个开源的Web界面,用于同各种大语言模型进行交互,并可以同ollama所管理的大语言模型进行快速集成。它提供了一个用户界面,允许用户输入prompt指令,并获得所选择模型生成的响应,由于本地化部署,其返回的结果和人工反馈又可以做为人工标注的数据,对开源大模型进行微调和强化学习用的训练数据。

本文主要介绍如下内容:

  • 安装ollama
  • 选择并安装大模型
  • 安装Open-WebUI
  • 测试大语言模型效果

安装Ollama

首先,打开Ollama的官方网站(https://ollama.com/download),如下图所示,选择自己操作系统版本即可:

19dd77193c5d410caee304e745310a79.png

下载完成之后,双击安装,安装完成之后会在Mac上看到如下的图标,代表安装完成:

2f1f65429e4e461cbef8bd5c0608f4a2.png

选择并安装大模型

在Ollama的官方网站有一个Models菜单,如下图所示:

7e614cd35e494c3b8c7977a5bae7d590.png

点击即可看到Ollama所支持的所有大模型列表,这里的下拉列表有很多,大家可以自行研究:

d5912aa521ca4534b350f0ce4ab63359.png

在本例的部署中,我选择了两个7B左右参数的大模型:

  • llama3: 8B,Ollama官网的大模型
  • qwen2:7b,通义千问大模型

b96870e8980b453f8a654cfeef1aff7f.pnge77f94a02ada4fa79bbea28ff3af9daa.png

我所使用的电脑为13寸MacBook Pro,配置如下图所示:

bc71fb88be0d4a64a61d2070d7baa78a.png

在此配置下,经亲测,两个8B参数的大模型在不进行微调和强化学习的情况下,都运行流畅。如果想试验更好的模型,可以选择13b或70b的版本,当然占用的内存和GPU资源也会更高,13b最少内存要求为16G,大家可去测试下。

我们以qwen2为例,来介绍其部署指令,从上图点击“qwen2“进入该大模型的详细介绍页面,如下图所示:

c50e77293c6945a4be7296a2d95db84f.png

点击红圈的按钮,即可复制指令,直接在命令提示符下运行即可,如下图所示,即会开始下载大模型并自动化完成部署:

bc2e6362369641dab7fbbb6e32575559.png

安装完成之后,会马上有一个基于命令行的交互界面,可以输入prompt指令,并获得返回结果,如下图所示:

a18a8c99c4e84ba3b308484d925fcc43.png

安装成功!!!

【安装llama3大模型,用同样的方法即可下载,这里不再描述】

 

安装Open-WebUI

安装Open- WebUI之前请先安装Docker,如果不了解Docker的请自行上网查询,本文将不再缀述Docker的安装和部署。

安装完Docker之后,我们将继续安装Open-WebUI,进入Open-WebUI的官网(https://docs.openwebui.com/getting-started/),开始安装,如下图所示:

adc2fdec7f4544e097f12d357abe86c3.png

如果将Ollama和OpenWebUI要部署在同一台主机上,请选择红框中的指令,如果是不同的主机请选择红框下方的内容:

  • 同一主机部署
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 不同主机部署:这里要指明OLLAMA_BASE_URL参数,根据实际情况进行调整即可
     
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
  • 安装完成之后运行http://localhost:3000,即可进入如下界面,首次运行需要注册:

d5e1e0c677bb45a684100f9e99993392.png

安装成功.......

测试大语言模型效果

注意:大模型第一次运行响应比较慢,后面就会快些,当然也取决于硬件配置或是否用GPU。

1、测试llama3

200d5a3065064d6f857b14955cbe2897.png

e9872664b06741be8702f030eb6e4d0b.png

2、测试qwen2

94b7044a66ce42e58667eefab333caaa.png

效果总结:

在对7B左右参数的大型模型进行测试后,我们发现它已经具备了识别人类指令并进行推理的基本能力。但是,由于模型规模和联网能力的限制,其回答问题的内容可能会出错。我相信经过模型微调等优化,一定能够获得更好的效果。

现在它就像是一个小学生毕业生,剩下的就是接受更专业领域的教育,以便能够在某个专业领域工作。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/787867
推荐阅读
相关标签
  

闽ICP备14008679号