赞
踩
当今,人工智能技术日益成熟,大语言模型作为其重要组成部分,正以惊人的速度改变着我们的生活和工作方式。
今天也是很荣幸,博主得到平台的信任,有幸拿到了一块香橙派 AI pro,这块板子作为业界首款基于昇腾深度研发的AI开发板,其配备的 8/20TOPS澎湃算力是目前开发板市场中所具备的最大算力,那么今天我们就将探索如何利用香橙派 AIpro 平台,通过Ollama将大语言模型部署到本地。
目录
香橙派(Orange Pi)是一系列由深圳市迅龙软件有限公司。公司成立于2005年,作为全球领先的开源硬件和开源软件服务商,致力于让极客、创客、电子爱好者享用到优质而具有高性价比的科技产品,通过大规模的社会化协作去创建一个更加美好的信息化人类文明。
此次评测的是香橙派 AI pro 开发版,香橙派AI pro开发板是由香橙派联合华为推出的高性能AI开发板,它采用了昇腾AI技术路线,集成了4核64位处理器和AI处理器,支持高达8-12TOPS的AI算力。
该开发板配备了8GB/16GB LPDDR4X内存,并支持通过eMMC模块或M.2接口扩展存储空间。
香橙派AIpro还支持双4K高清输出,并提供了丰富的接口,包括两个HDMI输出、GPIO接口、Type-C电源接口、支持SATA/NVMe SSD的M.2插槽等,适用于多种AI应用场景。
如AI边缘计算、深度视觉学习、视频分析等。操作系统方面,香橙派AIpro支持Ubuntu和openEuler,以满足不同开发者的需求 。
这么强劲的一块开发板,笔者刚收到板子的心情非常激动的,这边随手拍拍给大家展示一下,不多不说香橙派这次外观上没得说,无论是包装还是内部做工都很专业很精致。
接上线开机完全体,应该是我拍照的问题,感觉图片看起来都好丑啊!!!
作为一块为开发者而生的开发板,香橙派 AI pro在高负载下仍然做到了噪音和散热方面的平衡。
具有稳定的高负载处理能力, 能够在长时间高负载的情况下保持稳定运行,不会因为负载过重而出现性能下降或自动重启的情况。
支持复杂任务的处理能力,基于强大的算力,它能够处理复杂的计算任务,如大型模型的训练或推理,而不会出现明显的延迟或卡顿。
噪音控制方面,开发板的散热模组选择了低噪音设计, 通过采用有效的散热设计和静音风扇,以减少噪音。即使在高负载时,它的风扇也能保持较低的转速,从而降低噪音水平。
从而做到静音运行, 在日常使用中,开发板的运行噪音足够低,不会干扰到周围的工作环境或人员。
而散热效果方面,这套高效的散热系统能够有效地将热量分散和排出,确保在长时间高负载运行时仍能保持适当的工作温度,并做到稳定的温度控制,即便在高负荷运作下,开发板的温度叶能够保持在安全范围内,不会因为过热而影响性能或导致系统稳定性问题。综上所述,香橙派 AI pro在处理复杂任务时能够稳定运行,同时保持低噪音和有效的散热,这些特点使其成为开发人员和研究人员首选的工具,能够在各种应用场景下提供可靠的性能和用户体验。
能做到以上种种,开发板设计者预留的这块巨大的散热模组功不可没,这也充分体现出了这块优秀的开发板为开发者而生的优良性能。
本次实测是基于香橙派 AI pro 开发版强大的AI算力,高达8-12TOPS的AI算力给未来的AI应用开发提供了无限可能,因此,此次实测,我们将基于Ollama这个强大的框架,在我们的香橙派 AI pro 开发版上部署通义千问大模型。
通义千问大模型是由阿里云研发的人工智能模型,属于AI Generated Content(AIGC)领域,是一个多模态大模型(Multimodal Models)通义千问具备多轮对话、文案创作、逻辑推理、多模态理解和多语言支持等功能,能够与人类进行多轮交互,并融入了多模态知识理解。此外,它还能够进行小说续写、邮件编写等创作活动,是笔者最喜欢的大模型之一。
这里还需要简单介绍一下Ollama,Ollama用于在 Docker 容器中部署 LLM。它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型。
本次项目,笔者将基于自己的实践经验,展示如何香橙派 AI pro 开发版环境下部署和运行通义千问大模型,为大家展示香橙派 AI pro 开发版的强大性能和应用前景。
开机启动,这套开发版内置了 Open Euler 系统镜像。这里还是需要简单介绍一下。
Open Euler 是一由中国开源软件基金会主导,以Linux稳定系统内核为基础,华为深度参与,面向服务器、桌面和嵌入式等的一个开源操作系统
输入密码并连接WiFi,我们就得到了一台基于Open Euler的开发设备了
上机第一件事,打开命令行,安装Docker
在我们的主机上安装Docker,需要设置 Docker 仓库。依次在终端执行下面的命令
sudo apt-get update sudo apt-get install ca-certificates curl sudo install -m 0755 -d /etc/apt/keyrings sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc sudo chmod a+r /etc/apt/keyrings/docker.asc
添加apt仓库源
echo \ "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \ $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \ sudo tee /etc/apt/sources.list.d/docker.list > /dev/null sudo apt-get update
安装Docker
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
验证Docker是否安装成功
sudo docker run hello-world
我们本次使用的是Ollama部署和运行大模型,Ollama 是一个强大的框架,设计用于在 Docker 容器中部署 LLM。它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型。
因为我们是一台单机环境,运行环境:8核心、32G内存
docker pull ollama/ollama
该命令是从Ollma镜像库中拉取和安装Ollama环境。
目前镜像是默认连接Github下载,如果尝试多次都是连接timeout,建议手动从Ollama官网下载安装
接下来我们启动
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
下面我们来依次详细解释一下这条命令及其各个部分:
docker run
:这个命令用于创建并启动一个新的 Docker 容器。-d
:这个标志表示容器将在后台运行(detached mode),会在终端中立即获得命令提示符。--gpus=all
:将所有可用的 GPU 资源分配给这个容器。如果有GPU配置,我们还是需要的。-v ollama:/root/.ollama
:这条命令设置了一个名为 "ollama" 的卷,并将其挂载到容器内的路径/root/.ollama
。卷用于在容器的生命周期之外持久化存储数据。-p 11434:11434
:这个选项将主机上的端口 11434 映射到容器内部的端口 11434。这样做是为了允许从外部访问容器内运行的服务,对外暴露端口。--name ollama
:这个选项为容器指定了名称 "ollama"。通过指定名称,可以更方便地管理和引用容器,而不是仅依靠自动生成的 ID。ollama/ollama
:这指定了用于创建容器的 Docker 镜像。Docker Hub了我们需要的 "ollama/ollama" 的镜像。
接下来我们在本地启动
docker exec -it ollama ollama run llama2
这条命令是在已经运行的名为 "ollama" 的 Docker 容器内部执行命令 "ollama run llama2"
这条命令及其各个部分的解析如下:
docker exec
:这个命令用于在运行中的 Docker 容器内部执行命令。-it
:这两个选项一起使用,-i
表示交互模式(interactive),-t
表示终端(terminal),允许你与容器内的命令进行交互。ollama
:这是指定要执行命令的"ollama"容器的名称ID 。ollama run llama2
:这是要在容器内部执行的实际命令。在这里,它通过 "ollama" 工具执行 "run llama2" 命令。解释:
- 通过
docker exec -it ollama
, Docker 在名为 "ollama" 的容器内执行命令。ollama run llama2
是在容器内部运行的实际命令。
操作后进入Ollama容器,(docker exec -it ollama ollama)启动Ollama,并且自动运行llama2大模型。如果是手动启动的Ollama服务,可以运行如下:
sudo systemctl start ollama
systemctl start ollama
:命令使用 systemd 工具来启动我们的 "ollama" 服务。- systemd 是用于管理和控制 Linux 系统服务的工具。它允许你启动、停止、重启和管理系统服务。
Ollama官方地址:https://ollama.com/library
搜索qwen,进入通义千问qwen1.5系列模型链接:qwen (ollama.com)
默认看到6个模型,如果需要更多量化版本的模型,可以在下拉框选择tags中,看到更多量化版本的模型。
6 model sizes, including 0.5B, 1.8B, 4B (default), 7B, 14B, 32B (new) and 72B
ollama run qwen:0.5b
ollama run qwen:1.8b
ollama run qwen:4b
ollama run qwen:7b
ollama run qwen:14b
ollama run qwen:32b
ollama run qwen:72b
ollama run qwen:110b
选择好了模型以后,直接运行对应的命令(这里需要修改内容为你需要的模型,笔者采用的是1.8)
ollama run qwen:1.8b
通过这个命令会指示ollama下载Qwen 1.8b模型(如果尚未下载)并启动模型服务,使您能够通过HTTP API与模型进行交互
完成自动下载和运行,就可以进行对话了,使用qwen:1.8b运行, 速度会偏慢(回答问题需要等待)
当然也可以采用量化版本运行:
ollama run qwen:4b-chat-v1.5-q5_K_M
效果会稍微好些
下次想运行时和使用,输入以下命令
sudo systemctl start ollama ollama run qwen:1.8bsudo systemctl start ollama:启动Ollama服务
ollama run qwen:1.8b:运行特定模型
收到开发板并实际上手体验的这俩天,香橙派 AI pro开发板带给我的感觉就是优秀和稳定 ,无论是本地部署大模型还是办公的一般体验都是相当好的,而且尽管是一个开发板,它的散热也没有任何妥协,使用过程中没有一次因为负载过重导致自动重启,在持续的高负荷运作中,体感温度一直保持在50到60°左右,要知道我们本次实现的内容也算是重活了,这也体现了香橙派 AI pro对做工和温控方面的严格。
搭载着目前业界最强大的 8/20TOPS澎湃算力,AI 处理器,丰富的插件扩展口,对未来的嵌入式AI 项目,具有良好的支持。可玩度那是非常的高,为项目创新和开发人员提供广阔的空间,不仅可以用做智能家居开发,还能对各种ALot 都可以能应用
丰富的社区也应证了我的猜想,这就是一款针对开发者,并且收到广大开发者喜爱的开发硬件设备。
包括大量年轻人活跃的某站,也有大量基于香橙派的开发视频。
官方也为我们提供了相当有趣的项目供我们学习和实践上手测试。
收到香橙派 AI Pro开发板并进行了实际上手体验的这几天,我深切感受到了它带来的优异性能和稳定性。
首先,无论是在本地部署大型模型还是日常办公中的一般体验,这块开发板都展现出了相当好的表现。不仅如此,即使在持续高负载的情况下,它也从未出现过自动重启等异常情况。
散热方面更是没有任何妥协。在长时间的高负荷运行中,手触散热铝块的体感温度始终保持在50到60度左右(危险行为不要模仿,小心摸到风扇),这对于一块处理复杂任务的设备来说是相当令人满意的。这反映了香橙派 AI Pro在做工和温控方面的严格标准,确保了长时间稳定的运行。
香橙派 AI Pro搭载着业界最强大的8/20TOPS澎湃算力的AI处理器,同时提供丰富的插件扩展口,为未来的嵌入式AI项目提供了良好的支持。它不仅仅可以用于智能家居开发,还能广泛应用于各种AI项目中,这使得它具有非常高的可玩性,为项目创新和开发人员提供了广阔的空间。
总的来说,香橙派 AI Pro给我留下了深刻的印象,它不仅在性能和稳定性上表现出色,而且在设计和扩展性方面也非常出色。对于需要进行复杂AI处理和嵌入式系统开发的项目的开发者来说,它是一个非常强大和可靠的选择。
以上内容就是此次体验香橙派 AI pro的感受和如何基于Ollama实战大模型部署的全部内容了。
有赖于香橙派 AI pro这块板子配备的 8/20TOPS澎湃算力,PS:是目前开发板市场中所具备的最大算力,这款业界首款基于昇腾深度研发的AI开发板,为我们的实践上手提供了很大助力。
相信你们看到这里也已经迫不及待的想体验体验了,快去基于你的香橙派 AI pro部署并实测吧,那咱们就下次再见啦。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。