当前位置:   article > 正文

NVIDIA DGX H100概述_h100服务器内部架构

h100服务器内部架构

NVIDIA DGX H100系统是一种专为HPC基础架构和工作负载而设计的专用多功能解决方案,涵盖了从分析和训练到推理的各种应用场景。它包括NVIDIA Base Command™和NVIDIA企业软件套件,以及来自NVIDIA DGXperts的专业建议。

DGX H100硬件和组件特性

硬件概述

NVIDIA DGX H100 640GB系统包括以下组件。

组件

前面板连接和控制

左侧是带有面板的DGX H100系统,右侧是不带面板的DGX H100系统。

前面板

DGX H100后面板模块。

DXG

DXG

  • 尺寸:8U机架安装,高度0.4m,最大宽度0.5m,最大深度0.9m。

  • 重量:最大287.6lbs(130.45kg)。

  • 输入电压:200-240V交流电。

  • 电源规格:最大10.2KW,200-240V3300W,16A,50-60Hz。

  • 支持高速网络连接,包括InfiniBand和以太网,速度高达400Gbps。

外部端口连接和控制

下图示展示了DGX H100系统中主板的连接和控制。

外部端口连接和控制

  • 插槽1:双端口ConnectX-7网卡

  • 插槽2:双端口ConnectX-7网卡

  • 插槽3:100 Gb/s以太网网卡

  • 插槽4:用于双1.92TB NVMe启动驱动器的M.2 PCle载板

  • 2个USB端口(用于键盘或存储设备)

  • 串口输入/输出端口

  • VGA端口(用于显示器)

  • 1 GbE RJ-45用于远程系统管理

  • 10 GbE RJ-45用于远程主机连接

主板托盘组件

CPU主板托盘是服务器的核心组件,包括标准服务器和专为HPC设计的服务器。它包含了CPU主板、系统内存、网卡、PCIE交换机和其他各种组件。下图显示DGX H100主板托盘组件。

主板托盘组件

  • 系统内存:每个32个DIMM插槽提供2 TB的内存。

  • 带外系统管理(BMC):支持Redfish、IPMI、SNMP、KVM和Web用户界面。字

  • 带内系统管理:3个双端口100GbE和10GbE RJ45接口。机械和电源规格。

  • 存储: 操作系统存储:2个1.92TB NVMe M.2固态硬盘(RAID 1阵列)。 数据缓存存储:8个3.84TB NVMe U.2加密固态硬盘(RAID 0阵列)。

存储

  • 网络: 集群网络:4个OSFP端口,支持InfiniBand(高达400Gbps)和以太网(高达400GbE)。 存储网络:2个NVIDIA ConnectX-7双端口以太网网卡,支持以太网(高达400GbE)和InfiniBand(高达400Gbps)。

GPU托盘组件

下图显示DGX H100系统中GPU托盘组件。

GPU托盘组件

  • 图形处理器:8个NVIDIA H100 GPU,提供640 GB的GPU内存。

图形处理器

  • NVLink:4个第四代NVLink,提供900 GB/s的GPU到GPU带宽。

GPU板托盘是服务器的关键组装区域。其核心是GPU板托盘,包括GPU组件、模块板和NVSwitch等重要部分。

DGX H100系统拓扑结构

以下是DGX H100系统的拓扑结构图,展示了系统内各种硬件组件之间的连接、配置和相互关系。

拓扑结构

DGX H100的功能优势

该系统经过专业设计,优化HPC吞吐量,为企业提供了一个高度精细、系统化组织且可扩展的平台,以实现自然语言处理、推荐系统、数据分析等领域的突破。

DGX H100提供了灵活的部署选择,无论是在本地进行直接管理,还是在NVIDIA DGX-Ready数据中心进行共享,通过NVIDIA DGX Foundry租用,或通过经过NVIDIA认证的托管服务提供商进行访问。DGX-Ready生命周期管理计划确保组织拥有可预测的财务模型,使其部署始终处于技术的前沿。这使得DGX H100与传统的IT基础设施一样易于操作和访问,减轻IT人员的额外负担。

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号