赞
踩
【编者按】凌云光作为中国机器视觉龙头企业,深知算力是处理和分析海量数据的关键,此次携手趋动科技在GPU管理方面的探索落地,为行业打破算力桎梏提供了又一例证。未来,趋动科技将继续以GPU池化技术领先者之姿,为更多行业客户提供人工智能的算力基建。
作者 | 凌云光、趋动科技
出品 | CSDN(ID:CSDNnews)
中国机器视觉市场潜力巨大,行业处于快速成长周期,中国市场已成为全球机器视觉市场规模增长最快的市场之一,为各厂商提供了广阔成长空间。根据中国机器视觉产业联盟的统计,中国机器视觉行业的销售额从2020年的184.6亿元增长至2022年的310亿元,年复合增长率达29.6%。
得益于宏观经济逐步回暖、下游行业恢复增长、制造业自动化及智能化进程的加速、产业结构升级推动、机器视觉产品应用领域的拓宽、国产品牌技术能力持续提升、政策支持、机器视觉行业技术升级、资本力量不断加持等因素,中国机器视觉行业规模将进一步增长,预计2023-2025年,中国机器视觉行业规模将从375.4亿元增长至560.1亿元。
凌云光战略聚焦机器视觉行业,秉持为机器植入眼睛和大脑的使命,依托“视觉+AI”技术,服务多个行业智能制造。目前,凌云光已较为全面地掌握了机器视觉产业链相关核心技术,形成了先进光学成像、软件与算法、精密机械与自动化控制,以及新一代人工智能等技术平台。
当前,以深度学习为主的人工智能技术在工业应用场景得到了广泛应用与再创新,推动了传统工业质检向人工智能时代迈进。与此同时,随着深度学习在工业质检领域的应用逐渐深入,通用深度学习算法、框架、平台不足以满足工业场景的实际应用要求,面临缺陷样本少、精度要求高和效能要求高等诸多挑战。
凌云光F.Brain(Fabrication & Factory Brain,工厂大脑、制造大脑)深度学习平台,是基于凌云光多年在工业领域的经验积累,专为工业质检场景自主研发的深度学习平台。针对工业质检场景碎片化、快交付、高迭代、低要求等特点,凌云光专门研发了多种算法,实现浅、弱和小缺陷的像素级检测,通过轻量化、流程化模型设计实现快速部署,通过数据增强、模型预训练和元学习等,有效解决NG缺陷有限、训练样本较少的“冷启动场景”问题。
机器视觉开发一般包括数据采集、数据预处理、特征提取、训练模型、模型优化、上线部署等多个步骤,而大量的算力和GPU资源成为项目顺利开展的关键。如:
这种对GPU算力资源的巨大需求,特别是在高端GPU卡一卡难求的局面下,给企业带来额外成本压力和能耗开支。
例如,在内部研发算力需求管理方面:以往产品线和研究院各自研发的模式,无法形成合力,而造成人才资源的浪费。但是,如果为每位算法工程师配置GPU服务器,虽然可使不同算法部门GPU资源实现物理隔离,但也会出现算法工程师在研发测试过程中,GPU卡并不能被满负荷使用,造成资源闲置的现象。
另一方面,随着新客户不断增加,业务部门对GPU采购需求随之增加,其成本也在迅速增加。随着业务的发展,必须购买更多的GPU以满足客户需求,但也导致了成本的快速上升。
针对以上问题,凌云光对于GPU管理的能力提出以下几点诉求:
凌云光以GPU虚拟化技术为起点,调研了市场上的主流技术方案,以及每种技术的优劣势是否能够满足以上要求:
基于以上分析以及多方测试对比,我们选择了趋动科技的OrionX GPU资源池化方案。
有些人认为内核态的虚拟化能提供更好的性能,直接和设备通信、有更高的执行权限,因此可以有更好的虚拟化性能。实际上虚拟化的性能和诸多因素有关,包括虚拟化的粒度、虚拟化接口的形式、虚拟化软件介入的频率、虚拟化软件的实现方式等等,而不是笼统地归因于内核态和用户态的表面差异。
业内很多方案为了追求更好的性能,减少用户态和内核态的切换带来的性能损失,反而都是实现在用户态,例如用户态的TCP/IP协议栈,用户态文件系统等。在我们的测试对比中,用户态的虚拟化方案能够提供高性能的GPU虚拟化,甚至比内核态有更高的性能;同时由于用户态实现相对内核态实现更加安全,对系统的稳定性影响小,因此可以使用更加复杂的实现方式,从而提供更多更丰富的功能,比如我们要求的资源统一规格化,资源池化,资源动态挂载释放的能力等。
我们对OrionX进行了多个模型多个场景的压测,在本地虚拟化场景下,OrionX vGPU的性能几乎媲美物理卡,远程调用的性能跟网络有关,通过RDMA的网络进行远程调用,性能损耗非常小。
以上测试对比了容器、虚机、远程调用以及不同模型不同batchsize大小的压测,其测试结果完全满足凌云光业务对于算力高性能的诉求。
趋动科技提供了OrionX GPU池化解决方案助力凌云光搭建了集团算力中心,将物理GPU虚拟成众多可灵活分配和调度的 OrionX vGPU,为公司内部研发平台和F.Brain深度学习平台按需提供算力。
F.Brain具备了 OrionX GPU池化的能力,让企业内的 AI 团队成员可共享数据中心内所有服务器上的 GPU 算力,使 AI 应用开发人员不必再关心底层资源状况,专注于更有价值的业务层面,让 AI 应用开发变得更加敏捷高效。
1、提升资源利用及研发效率
通过软件定义的方式将AI应用与物理GPU卡解耦,形成了GPU资源池,打破了原来物理GPU绑定造成的资源孤岛,提高了GPU资源利用率。OrionX从算力和显存2个维度支持细粒度可调整的虚拟GPU(颗粒度可达到1%算力和1MB显存),这使得凌云光能够更加灵活的分配GPU资源。
2、实现远程调用
凌云光研发人员在研发过程中,可以在无GPU卡的服务器上进行应用开发,通过OrionX远程调用功能和RDMA高速网络调用GPU资源,增加研发灵活性。
3、实现算力随需调用
OrionX还提供资源弹性伸缩以及秒级资源动态分配与回收,进一步提高GPU资源利用率,提升研发效率。
4、保障业务安全
为F.Brain深度学习平台提供GPU算力,将客户与物理GPU卡解绑,OrionX具备资源强隔离能力,满足F.Brain深度学习平台对用户资源有效隔离的要求,保证了业务的安全合规。同时具备资源强隔离能力,为业务安全保驾护航。
5、降低成本投入,提升ROI
凌云光通过GPU池化技术,充分利用了现有GPU资源,减少了GPU的新增采购,大幅降低了成本投入。和原来相比,同样的资金投入,现在由于GPU资源利用率大幅提升,可支撑的业务量也随之增加,使得ROI得到明显提升。
根据系统上线运行的数据,采用OrionX方案之后,凌云光在资源提升、节能减排方面有很大收益。之前需要200台、占地一层楼的服务器建设需求,通过GPU池化能力的加持和管理,现在只需几十台服务器、占地几个平方就能满足业务需求,在成本投入、能耗排放、运维管理等方面都为公司创造了价值。
人工智能市场已经进入高速发展阶段,凌云光作为中国机器视觉龙头企业,深知算力是处理和分析海量数据的关键,此次携手趋动科技在GPU管理方面的探索落地,为行业打破算力桎梏提供了又一例证。未来,趋动科技将继续以GPU池化技术领先者之姿,为更多行业客户提供人工智能的算力基建。
趋动科技
趋动科技作为软件定义AI算力技术的领导厂商,专注于为全球用户提供国际领先的数据中心级AI算力虚拟化和资源池化软件及解决方案,已完成中关村高新、国高新、“专精特新”等企业认证。趋动科技的 OrionX 猎户座 AI 算力资源池化软件能够帮助用户提高资源利用率和降低TCO,提高算法工程师的工作效率。趋动科技的双子座 GEMINI AI 训练平台,为客户提供强大的AI算力管理服务以及高效的算法开发和训练支持,能够化繁为简,帮助企业建好AI平台、管好 GPU、用好 AI 服务。依托全球领先的AI算力池化技术,趋动科技重磅推出趋动云VirtAI Cloud,为万千企业和AI开发者带来又便宜、又好用的AI算力池化云服务。
凭借标准化、可复制的产品架构,趋动科技得到了包括互联网、金融、电信运营商、自动驾驶、能源、科研机构和高校等大量行业头部客户的认可。资本市场对于趋动科技的发展充满信心——趋动科技成立两年多已经完成近亿美元的融资,顶级的投资机构持续支持趋动科技的发展,包括国开装备基金、沙特阿美旗下多元化风投基金Prosperity7 Ventures、元禾重元、招银国际、顺为、高瓴、嘉御、戈壁、讯飞和涌铧在内的国内外顶级VC正在见证趋动科技锐意进取的脚步。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。