趋动科技 OrionX on VMware 打造 AI 就绪平台

作者：运维做开发 | 2024-08-28 03:02:43

踩

着科技进步和产业变革的加速演进，人工智能（AI）已经成为兵家必争之地。今年以来伴随着ChatGPT带来的鲶鱼效应，人工智能成为科技产业创新的焦点，其应用范围越来越广泛，并将持续发展。科技产业龙头正加大在人工智能领域的军备竞赛。算法、数据、算力作为人工智能领域的三要素，也同时受到了业内关注。在政府、学术机构、企业等各个层面，AI都受到高度重视，其在学术研究、技术创新、人才教育等方面的发展都呈现全新发展态势。作为AI市场中的重要组成，以GPU技术为主的AI加速市场也得到了快速的发展，与此同时，由于GPU硬件价格昂贵，传统使用GPU算力的独占式使用方式缺乏灵活性和经济性，云原生技术的发展又催生了快速交付细粒度切分GPU算力的需求，所以市场上急需经济高效GPU算力池化方案。

VMware作为虚拟化与云原生技术的领导者，针对不同使用场景有对应的GPU资源技术方案。

趋动科技作为GPU池化技术领导者，自主研发的OrionX AI算力资源池化软件可以为企业用户构建数据中心级AI算力资源池和AI开发平台。OrionX将AI应用与物理算力资源解耦，并通过高效的通讯机制，使得AI应用、CUDA应用可以运行在云或者数据中心内任何一个物理机、Container或者VM内而无需挂载物理GPU。OrionX GPU池化软件的收益多多：

兼容已有的AI应用和CUDA应用，使其仍然具有使用GPU加速的性能。
为AI应用和CUDA应用在云和数据中心的部署提供了很大的灵活度，无需受GPU服务器位置、资源型号和数量的约束。
OrionX vGPU资源随AI应用和CUDA应用启动时分配，随应用程序退出时自动释放，减少GPU空闲时间，提高GPU的利用率。
通过对GPU资源池的管理和优化，提高整个云和数据中心GPU的利用率和吞吐率。
通过统一管理GPU，减轻GPU的管理复杂度和运维成本。

VMware此次联合趋动科技验证了在VMware Cloud Foundation（后面缩写为VCF）平台上提供GPU池化算力方案的能力，目的是更加灵活地为AI训练提供GPU算力，助力AI场景快速落地。

本次经过联合方案验证，主要是将OrionX与VMware VCF with Tanzu 结合部署，主要架构如下：

在整个方案验证中，VMware Tanzu Kubernetes Grid（后面缩写为 Tanzu TKG）提供了Kubernetes 运行环境，VMware Cloud Foundation 为Tanzu TKG 提供了底层IaaS平台，其中vSphere自动化置备Tanzu TKG节点虚拟机， vSAN为Kubernetes提供持久化存储服务， NSX为提供云内网络连接，NSX Advanced Load Balancer为Kubernetes提供负载均衡和应用发布服务。Harbor为整个台提供镜像仓储管理服务。OrionX提供GPU池化能力。Nvidia GPU通过直通模式透传给Tanzu TKG 的工作节点。

在本次方案验证中，我们主要涉及到以下场景：