← 返回列表

大规模多数据中心的GPU算力集群监控方法及系统

申请号: CN202311773601.1
申请人: 山东爱特云翔信息技术有限公司
申请日期: 2023/12/22

摘要文本

本发明提供大规模多数据中心的GPU算力集群监控方法及系统,其中,方法包括:步骤1:采集大规模的服务器集群中多个数据中心的部署数据;步骤2:将部署数据推送至监控服务器,并存储;步骤3:调取监控数据;步骤4:根据监控数据进行GPU算力集群监控,确定监控结果,同时,提供数据获取接口;步骤5:可视化监控结果,获得可视化结果。本发明的大规模多数据中心的GPU算力集群监控方法及系统,将数据中心的部署数据推送至监控服务器并存储。构建Python SDK模块调取监控服务器中的监控数据,监控效率更高;对监控数据进行GPU算力集群监控,确定监控结果。另外,提供了数据获取接口,监控的拓展能力更强。

专利详细信息

项目 内容
专利名称 大规模多数据中心的GPU算力集群监控方法及系统
专利类型 发明申请
申请号 CN202311773601.1
申请日 2023/12/22
公告号 CN117453493A
公开日 2024/1/26
IPC主分类号 G06F11/30
权利人 山东爱特云翔信息技术有限公司
发明人 闫鹏飞; 夏浩; 刘丁洋; 宫文策
地址 山东省淄博市临淄区临淄大道1177号爱特云翔大数据产业园

专利主权项内容

1.大规模多数据中心的GPU算力集群监控方法,其特征在于,包括:步骤1:采集大规模的服务器集群中多个数据中心的部署数据;步骤2:将部署数据推送至监控服务器,并基于key/value存储;步骤3:基于Python SDK模块,调取监控数据;步骤4:根据监控数据进行GPU算力集群监控,确定监控结果,同时,提供数据获取接口;步骤5:将监控结果进行可视化,获得可视化结果。