← 返回列表
大规模多数据中心的GPU算力集群监控方法及系统
摘要文本
本发明提供大规模多数据中心的GPU算力集群监控方法及系统,其中,方法包括:步骤1:采集大规模的服务器集群中多个数据中心的部署数据;步骤2:将部署数据推送至监控服务器,并存储;步骤3:调取监控数据;步骤4:根据监控数据进行GPU算力集群监控,确定监控结果,同时,提供数据获取接口;步骤5:可视化监控结果,获得可视化结果。本发明的大规模多数据中心的GPU算力集群监控方法及系统,将数据中心的部署数据推送至监控服务器并存储。构建Python SDK模块调取监控服务器中的监控数据,监控效率更高;对监控数据进行GPU算力集群监控,确定监控结果。另外,提供了数据获取接口,监控的拓展能力更强。
申请人信息
- 申请人:山东爱特云翔信息技术有限公司
- 申请人地址:255000 山东省淄博市临淄区临淄大道1177号爱特云翔大数据产业园
- 发明人: 山东爱特云翔信息技术有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 大规模多数据中心的GPU算力集群监控方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311773601.1 |
| 申请日 | 2023/12/22 |
| 公告号 | CN117453493A |
| 公开日 | 2024/1/26 |
| IPC主分类号 | G06F11/30 |
| 权利人 | 山东爱特云翔信息技术有限公司 |
| 发明人 | 闫鹏飞; 夏浩; 刘丁洋; 宫文策 |
| 地址 | 山东省淄博市临淄区临淄大道1177号爱特云翔大数据产业园 |
专利主权项内容
1.大规模多数据中心的GPU算力集群监控方法,其特征在于,包括:步骤1:采集大规模的服务器集群中多个数据中心的部署数据;步骤2:将部署数据推送至监控服务器,并基于key/value存储;步骤3:基于Python SDK模块,调取监控数据;步骤4:根据监控数据进行GPU算力集群监控,确定监控结果,同时,提供数据获取接口;步骤5:将监控结果进行可视化,获得可视化结果。