2025年9月,开放数据中心委员会(ODCC)发布《ETH-X以太超节点系统运维规范》,针对ETH-X以太超节点系统(含GPU、交换机等异构硬件)运维复杂度高的问题,构建覆盖硬件资产全生命周期的标准化运维框架,仅聚焦超节点内部运维,不涉及计算集群整体运维。
报告先明确运维架构与范围,ETH-X超节点运维需统一计算节点、网络节点等运维规范,涵盖资产管理等内容;运维范围为超节点域,采用带外与带内结合的管理网络,支持多种管理接口。
资产管理依托配置管理数据库(CMDB),记录计算节点(CPU、内存等信息)、GPU(型号、固件版本等)、交换节点(型号、厂商等)及机柜控制单元(PSU、整机柜等信息)的详细数据,同时规范信息录入、检查与变更流程,助力故障排查与资源规划。
监控系统采用多样化采集方式,交换节点用Telemetry等带外采集,计算节点结合IPMI等带外与Agent等带内采集,机柜控制单元通过IPMI等管理电源,液冷单元用MODBUS协议。监控指标全面,涵盖计算节点的系统与GPU指标、网卡指标、XCCL指标,交换节点的设备与端口等指标,超节点内网络质量指标,以及机柜控制单元的电源与液冷单元指标,并设健康阈值。
日志系统明确各节点日志内容,计算节点含系统与GPU日志,交换节点涵盖设备运行等多类日志,机柜控制单元记录电源与液冷单元日志,同时规范日志收集与可视化方式。
告警系统划分计算节点、交换节点、机柜控制单元三类告警类型,定义紧急、重要、次要、提示四级告警级别及相应处理策略,明确告警状态与规则,规范告警处理的核心功能与机制。
故障处理需先确认故障,再根据情况进行业务热迁移或冷迁移,硬件运维需按SOP处理计算/交换节点、机柜控制单元等故障,软件运维规范系统升级与重置流程。
可视化系统通过网页展示多系统数据,超节点液晶屏展示信息类与故障类关键指标。巡检系统包含人工巡检(覆盖三类项目)与自动巡检(覆盖五类项目),并规范巡检报告的日报、周月报管理。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系