阿里云异构计算发布：轻量级GPU云服务器实例VGN5i_multi-instance gpu在公有云上的应用

作者：羊村懒王 | 2024-02-29 13:50:55

踩

multi-instance gpu在公有云上的应用

阿里云发布了国内首个公共云上的轻量级GPU异构计算产品——VGN5i实例，该实例打破了传统直通模式的局限，可以提供比单颗物理GPU更细粒度的服务，从而让客户以更低成本、更高弹性开展业务。适用于云游戏、VR/AR、AI推理和DL教学等轻量级GPU计算场景，更细粒度的GPU计算服务。

轻量级GPU云服务器是什么？

轻量级GPU云服务器是一种新的GPU云服务器规格族，是通过公共云的GPU虚拟化技术将分片虚拟化后的GPU资源以虚拟GPU的形式安装在GPU云服务器实例中。与常规GPU云服务器的区别在轻量级GPU云服务器提供更细力度的GPU计算资源，比如拥有更少的CUDA计算核心，更小的显存。这样做的优势是在业务应用中，业务可以根据资源所需更加灵活的配置GPU计算资源。

用户在使用常规GPU云服务器的时候遇到了哪些痛点？

GPU的计算颗粒过大：
单颗物理GPU的计算能力越做越强大，但是许多应用需要更小颗粒的GPU计算资源；
常规GPU资源不利于业务自动伸缩：
拥有单颗物理GPU资源的实例在业务部署中会因为要充分利用GPU资源而造成“胖节点”，不利于设计成弹性伸缩架构，缺乏灵活性，无法应对业务快速变化；
常规GPU计算实例无法在线迁移：
常规直通虚拟化的GPU实例，由于架构特性无法支持GPU实例的在线迁移；

轻量级GPU云服务器与常规GPU云服务器有哪些不同？

我们从GPU加速器呈现方式，业务连续性，计算业务场景以及使用与管理看不同：
GPU加速器呈现
常规GPU云服务器实例是通过设备直通方式提供物理GPU加速器；
轻量级GPU云服务器实例是通过GPU虚拟化方式提供虚拟GPU加速器；
业务连续性
常规GPU云服务器仅支持作业离线迁移
轻量级GPU云服务器支持作业在线迁移
计算业务场景
常规GPU云服务器适用于重负载的GPU加速计算，例如：深度学习训练与推理计算、HPC计算、重载图形计算
轻量级GPU云服务器适用于轻负载的GPU加速计算，例如：轻负载的深度学习推理计算、深度学习教学场景、云游戏与VR/AR场景
使用与管理
常规GPU云服务器提供弹性计算服务实例、业务扩展以单颗物理GPU资源方式增加
轻量级GPU云服务器依然提供弹性计算服务实例，但业务扩展以更小粒度GPU资源方式增加（例如：1/8或1/4颗Tesla P4的资源）；

VGN5i有哪些技术亮点和技术领先性，解决哪些问题？

技术亮点：支持用户在公共云上创建更小颗粒的虚拟GPU的云服务器实例。
技术领先性有三点：
任何一项领先的计算技术要将其移植到公共云上输出，还是要遵循可靠性、经济性和易用性的技术要求。
首先是可靠性，公共云服务器首先是公共服务，要给所有用户提供“简单可依赖”的基础服务；虽然虚拟化GPU技术在私有部署条件下使用比较成熟，但是在公共云上使用还是要面临几个可靠性的挑战的：第一是数据安全性；第二是资源隔离；这两个问题在私有部署条件下通常是没有要求的，原因是私有部署都是给同一用户部署使用，安全和资源争抢问题都比较容易解决。但是，要在公共云上使用，这些问题在公共云上就必须解决。
其次是经济性，用户能选择使用轻量级GPU云服务器出发点是希望更加精细的使用GPU资源，本质是追求经济性。虚拟化GPU技术在私有环境部署，因为需求确定，可以根据预想好的使用场景来配置虚拟化比例，但在公共云场景就要解决既要满足所有用户的使用场景，又要保持调度系统的高效，不断降低成本，追求经济性。
最后是易用性，易用性表现在几个方面，一个是管理接口和使用习惯与其他ECS实例保持一致，另一个是APP在GPU实例中的使用场景和方式与其他常规GPU实例保持一致。这样用户就没有学习成本了。

轻量级GPU云服务器如何使用？

GPU实例的用法与普通弹性计算实例一样便捷，用户可以使用Web控制台或者OpenAPI方式配置和购买服务。用户在使用过程中可以完全掌控该实例，该实例在阿里云计算环境中运行，还可以配合其他云服务一起使用。当用户业务遇到业务高峰时可以在数分钟内扩展新的实例来适应业务增长。用户在虚拟化GPU服务的使用全过程中均可以享受到在线服务咨询和快速故障处理服务。

轻量级GPU云服务器的实例有哪些？

目前开放售卖基于NVIDIA Tesla P4的VGN5i实例，该实例提供八分之一到一比一的虚拟GPU加速器；
后面会上线基于NVIDIA Tesla T4的VGN6i实例，该实例提供十六分之一到一比一的虚拟GPU加速器；

轻量级GPU云服务器的适用场景有哪些？

轻量级GPU云服务器可以根据业务需求配置创建贴合业务所需计算资源的GPU云服务器实例，因此可以在每个轻量级GPU云服务器实例上仅运行一个计算业务负载，在业务峰值来临时，横向扩展某一个计算业务负载即可。这样的特性十分适合互联网业务中AI计算的批量部署以及云游戏，AR/VR在云端应用和深度学习的教学实验场景。

VGN5i的用户价值有哪些？

VGN5i的用户价值包括：降低批量部署GPU实例的成本，可以轻松实现快速弹性伸缩以及提高运维效率。
降低批量部署成本
在诸多图形计算和AI推理计算的场景中，用户通常并不要求单GPU实例的计算性能十分强大，而是更加关注业务在批量部署中的成本。小粒度的虚拟化GPU实例则更加合适这些场景，很好的平衡用户业务在批量部署中的成本需求。
实现快速弹性伸缩
拥有了小粒度的虚拟化GPU实例，用户不必再为了匹配较强的物理GPU资源而将服务部署成为复杂的胖服务节点，而是可以基于容器方式将有GPU计算需求的服务都解耦部署在不同的虚拟化GPU实例节点上。这样部署的瘦服务节点更加有利于快速弹性伸缩，在业务的任何时刻都可以应对自如，提高业务运维效率。
提高运维效率
使用小颗粒的虚拟化GPU实例进行瘦服务节点部署，使得服务环境配置和服务接口变得简单，使用不同的镜像即可部署大规模的AI应用而无需部署复杂的胖节点，提供运维效率，降低时间风险和成本。

直播观看地址：https://yq.aliyun.com/live/938
查看产品VGN5i：https://www.aliyun.com/product/ecs/gpu
VGN5i·释放GPU计算新动力：https://promotion.aliyun.com/ntms/act/vgpu.html
阿里云新品发布会频道：https://promotion.aliyun.com/ntms/act/cloud/product.html
阿里云新品发布·周刊：https://yq.aliyun.com/publication/36

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/165912