赞
踩
2024 全球机器学习技术大会将于 4 月 25、26 日在上海环球港凯悦大酒店举行!多位大模型领域的专家将云集于此,共同探讨人工智能前沿发展和行业最佳实践。
来自蚂蚁集团 DLRover 开源负责人王勤龙将在 2024 全球机器学习技术大会上发表《DLRover 训练故障自愈:大幅提升大规模 AI 训练的算力效率》主题演讲,分享如何在千卡规模大模型训练作业下,快速故障自愈。如果你在训练大模型过程中,训练进度经常被机器故障拖延,这次演讲绝对不容错过!
议题介绍
当前大规模语言模型训练需要大量的加速卡来训练,如 GPU 等。由于 GPU 机器的故障率较高,频繁的故障会导致训练中断、计算浪费和集群空转,从而造成大量的时间和算力浪费。为此,DLRover 开源了训练故障自愈技术,通过快速的节点状态检测、弹性扩缩容、动态组网和Flash Checkpoint 等技术,最大程度地降低故障导致的算力浪费。
DLRover 支持在 10 分钟内全自动定位到任意故障机器,让运维同学从繁琐且耗时的故障分析与定位中解锁出来。DLRover 还提供了 Flash Checkpoint 技术, 支持在 1 秒之内导出千亿参数级别大模型的 Checkpoint,这一特性支持在训练过程中高频保存 Checkpoint。算法工程师再也不用担心故障导致训练白跑,训练进程能够迅速恢复到最近的稳定状态继续进行。
DLRover 提供的 Flash Checkpoint 还对大模型训练与微调的常用框架提供支持,如 Megatron-LM、DeepSpeed、FSDP、HuggingFace Transformers 中的 Trainer 等,算法开发人员都可以实现“开箱即用”。
此次演讲除了介绍 DLRover 背后的技术原理,还会介绍 DLRover 的使用案例和 DLRover 社区大模型的实战效果。
讲师介绍
王勤龙,长期在蚂蚁集团从事 AI 基础设施的研发,主导了蚂蚁分布式训练的弹性容错与自动扩缩容项目的建设。先后参与多个开源项目,如 ElasticDL和 DLRover,开放原子基金会 2023 活力开源贡献者,蚂蚁集团2022 T-Star 优秀工程师。目前为蚂蚁 AI Infra 开源项目 DLRover 的架构师,专注于打造稳定的、可扩展的和高效的大规模分布式训练系统。
声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。