赞
踩
作者:左知
主机监控,或许是监控/可观测领域最传统和普遍的需求。在超算训练,AI 大规模训练的业务场景下,主机监控又有哪些痛点和难点呢?根据我们针对多个大规模超算客户的需求整理,超算场景的特点主要集中在如下几个方面:
大规模计算
超算擅长处理可并行化的计算问题,通过成千上万的处理器核心协同工作,实现任务的分解与加速执行。用户通常采用弹性任务调度系统在云上快速拉起大量的 ECS 主机来满足大规模计算需求。训练任务进行时计算集群整体算力利用率等是成本控制的关键。
高性能与吞吐量
超算系统设计用于处理大规模数据集,能够持续高效地完成大量计算工作,保证高吞吐量,适用于大数据分析、气候模拟、生物信息学研究等领域。如果计算集群某些算力机器出现吞吐瓶颈,即会影响整体计算性能。
弹性计算
在超算场景中,每一次训练任务一般持续几个小时到几天不等,每一次训练的算力需求也差异较大。通常用户采用弹性算力供给方式,在需要时拉起算力资源,结束时完成释放。计算任务的规模和复杂性迅速变化,也可能需要在短时间内快速增加或减少计算资源。
业务高峰与低谷
特定时段会对计算资源有极高的需求,而在其他时期则可能需求降低,形成明显的需求波动。
混合计算任务
超算任务可能会同时使用大量的 CPU 、GPU 、RDMA 等资源,以实现更高效的计算性能。不同的主机上可能存在异构的资源类型以支撑不同的计算任务。
在超算应用场景中,计算性能的极致要求和资源的动态伸缩特性给主机可观测提出了复杂挑战。为了确保新增计算节点能够迅速并稳定地融入整体计算环境,同时兼顾成本效率,可观测性策略需要精心设计和实施,通过可观测可以及时发现潜在的问题点,或者资源优化点等。
超算场景下,主机可观测面临的挑战有如下几点:
精细化监控
对计算节点的运行状态、负载、网络延迟等关键指标进行秒级监控,是确保系统稳定性和高效性的前提。
进程级监控能力
超算任务往往会以进程形式运行在主机上,不仅需要对主机整体资源消耗有监控,还需要对具体计算任务资源消耗具备可观测能力。进程间的横向资源消耗对比,可帮助快速发现资源消耗异常的进程。进程的数量监控,以及进程下的协程数量等,都是关键的可观测指标。
自动化服务发现
监控系统需配备自动服务发现机制,以便在节点弹性伸缩时,能够立即识别新增或被释放的节点,以实现秒级单位下纳入监控系统。
自动部署监控探针
对于新增的计算节点,自动部署监控组件是迅速实现节点加入监控体系的关键。通常对于不同算力的主机进行智能识别,以安装对应的数据采集组件,例如区分 Windows 或 Linux 主机吗,GPU 算力,RDMA 高性能网络需求。
数据标签分类
数据标签(也称为标签或标签键)是与指标相关联的元数据,用来提供额外的上下文信息,以便对指标进行更细致的分类、筛选和分组。根据使用场景和用途不同,需要增加特定的标签,例如组织性标签、环境标签、业务标签等。通过适当地使用和组合不同的数据标签,可以提高监控数据的可查询性和可操作性,并帮助您构建一个更加强大和灵活的可观测性解决方案。
阿里云 Prometheus 主机监控针对阿里云 ECS 服务器提供了一个高效且易于管理的监控方案,这一方案的特点是顺应了现代云计算环境中对于可观测性和自动化管理的需求,阿里云 Prometheus 主机监控具备如下优势。
阿里云 Prometheus 提供的主机监控,具备阿里云 ECS 服务器、自建 IDC 内服务器、云厂商服务器全类型主机接入能力,针对阿里云 ECS 服务器可根据配置自动安装各类开源 Exporter,各类 Exporter 采集配置自动生成,托管 Prometheus Agent 实现自动采集,采集数据统一存储、统一展示、统一告警。对于非阿里云主机不具备自动服务发现的能力,所以需要依赖用户在接入时手动安装阿里云采集探针,主动将监控数据上报到阿里云 Prometheus 存储。
阿里云 Prometheus 主机监控架构
主机秒级发现
探针秒级安装
指标秒级采集
主机从创建到纳入监控系统,整体可以在 30-60s 以内完成。主机所有指标数据可以支持 1-60s 时间间隔的灵活调整。整体实现主机全方位秒级监控能力。
探针 Serverless 化
智能指标标签
超大规模数据采集与存储
提供完善的上下游监控数据
进程级监控
默认提供 Grafana 数据大盘
接入方式以阿里云 ECS 服务器为例,在应用实时监控页面,点击接入管理,选择 ECS 环境,点击新增接入,可分别接入 GPU 监控和主机监控。其中 GPU 监控对应接入 GPU 类型主机,默认会自动安装 GPU-exporter;其中主机监控对应接入 CPU 类型主机,默认会自动安装 Node-exporter 和 Process-exporter。
针对阿里云 ECS 服务器,支持多种类型的服务发现方式,可灵活选择需接入监控的目标服务器,服务发现方式 CPU 主机和 GPU 主机没有差异。
成功接入后,会依据主机类型显示服务发现的主机数量、以及 Exporter 安装和运行情况。
自监控页面,可实时查看 GPU 和 CPU 主机接入采集状态,以及实时获取源数据。
接入效果
阿里云 Prometheus 主机监控服务的接入效果总结如下:
阿里云 Prometheus 主机监控服务通过以上能力为超算用户提供了强大的监控保障。这种快速而精准的可观测性能力是超算用户在云环境中实现资源动态管理和性能优化的关键。能够及时响应计算资源的弹性伸缩对于确保计算作业的连续性、洞察系统瓶颈和异常行为,以及指导资源分配决策至关重要。
集成大盘
阿里云 Prometheus 主机监控,当接入 GPU 监控和 CPU 主机监控,默认集成对应大盘,提供包括计算节点基础观测、进程观测、协程观测、GPU 观测等。
主机监控默认集成大盘列表
主机监控 GPU 监控默认集成大盘
默认集成的观测大盘,阿里云专家根据实践积累,预置了多种核心观测点大盘、多重聚合维度观测视角大盘,真正做到开箱即用。
ECS Overview大盘
ECS Detail 大盘
Node Process 进程大盘
GPU Overview 总览大盘
GPU Detail 详细大盘
在超算场景中,随着计算需求的高度动态性和对性能极致追求,对云计算服务提供商提出了快速调整资源以应对业务高峰与低谷的挑战。阿里云 Prometheus 提供的主机监控方案积极响应了可观测需求,通过强化其自动化监控能力,为资源优化和提升成本效益提供可靠的监控指标。
阿里云 Prometheus 主机监控实践能力包括如下四点:
自适应的自动服务发现,保障云资源的实时监控覆盖,应对资源动态伸缩的需求。
自动化的 Exporter 部署,降低了运维难度,提供了即插即用的监控能力,及时追踪新节点的度量。
自动生成的 Prometheus 配置,简化了监控配置的复杂性,增加了监控架构的灵活性和可扩展性。
托管的 Prometheus Agent,实现了监控数据采集的集中管理和优化,提高了数据的准确性和有效性。
以上能力使阿里云 Prometheus 提供的主机监控具备如下优势:
提高运维效率: 自动化的监控系统降低了人力投入,释放了运维团队的工作负担,使他们可以投入到更重要的优化任务中。
快速响应问题: 实时监控和快速服务发现机制,缩减了从诊断到解决问题的时间,提高了系统的可靠性。
资源使用优化: 实时细粒度监控带来了资源使用的深入讲解,指导资源调度的优化,降低资源浪费,实现成本控制。
增强的可扩展性和可靠性: 自动化和智能化的监控手段保证了即使在主机数量大规模扩展的情况下,监控的全面性和准确性都不会受到影响。
综上,阿里云 Prometheus 主机监控方案正成为超算场景下管理与监控云资源的强有力支撑,它不仅有效地保障了云基础设施的高效和健康,也为企业进一步拓展其高性能计算能力提供了坚实的基础。
目前可观测监控 Prometheus 版,提供每月 50GB 数据写入免费额度,满足日常监控基本需求,点击此处,立即开始体验。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。