赞
踩
Meta 最近宣布设计两个新的 AI 计算集群,每个集群包含 24,576 个 GPU。 集群是基于Meta的 大提顿 硬件平台,Meta 目前使用一个集群来训练他们的下一代 Llama 3 模型.
Meta 设计的集群是为了支持他们的生成式人工智能工作。 这两个集群变体的网络结构有所不同。 Llama 3 集群使用融合以太网上的远程直接内存访问 (RDMA) (罗CE) 而另一个则使用 NVIDIA 的 量子2 InfiniBand. 存储层基于Meta定制 构造文件系统, 它支持处理数千个 GPU 的检查点所需的同步 I/O。 根据元数据,
这两个人工智能训练集群设计是我们人工智能未来更大路线图的一部分。 到 2024 年底,我们的目标是继续扩大基础设施建设,其中包括 350,000 NVIDIA H100s 作为产品组合的一部分,其计算能力相当于近 600,000 个 H100.
Meta 有着开源硬件平台和机架设计的历史。 2021 年,InfoQ 报道了 Meta ZionEX集群. InfoQ 报道了 大提顿平台的开发 以及 2022 年 Meta 的开放式机架设计。作为这项工作的一部分,Meta 将他们的工作贡献给了 开放计算项目, Meta 于 2011 年创立。2023 年末,Meta 和 IBM 推出了 人工智能联盟 "支持人工智能领域的开放创新和开放科学."
Meta 面对新集群的一大挑战是在这种规模下调试的难度。 元曾与 锤子空间 为其存储系统构建交互式调试工具。 Meta 还开发了“分布式集体飞行记录器”,用于分布式训练故障排除.
在开发新集群时,Meta 运行了多次模拟来预测其节点间通信性能。 然而,“开箱即用”的集群的性能不如较小的优化集群; 基准测试期间的带宽利用率变化很大。 在调整作业调度程序并优化集群中的网络路由后,该指标始终大于 90%.
Meta 也致力于他们的 火炬 框架实施以更好地利用集群硬件。 例如,H100 GPU 支持 8 位浮点运算,可用于加速训练。 Meta 还致力于并行化算法和初始化瓶颈,将初始化时间从“有时数小时缩短至几分钟”."
在黑客新闻中 关于元集群的讨论, 一些用户感叹,硬件成本导致其难以在人工智能领域与 Meta 等“超大规模”公司竞争。 AI 开发者 Daniel Han-Chen 表示:
与大型科技公司竞争的另一种方法是尝试数学和软件技巧来代替硬件,以创造公平的竞争环境! 训练模型仍然是黑魔法,因此在软件方面使其速度更快可以在一定程度上解决资金成本问题!
除了 Meta 之外,其他人工智能厂商也公布了他们的大型计算集群的详细信息。 谷歌最近宣布了他们的 人工智能超级计算机, 基于他们新的 Cloud TPU v5p 加速器硬件。 微软Azure的 鹰超级计算机, 其中包含 14,400 个 NVIDIA H100 GPU,最近在 HPC 排行榜上名列第三500.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。