← 返回列表
一种计算机集群的NPU容错调度系统
申请人信息
- 申请人:之江实验室
- 申请人地址:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 发明人: 之江实验室
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种计算机集群的NPU容错调度系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410110185.5 |
| 申请日 | 2024/1/26 |
| 公告号 | CN117632444A |
| 公开日 | 2024/3/1 |
| IPC主分类号 | G06F9/48 |
| 权利人 | 之江实验室 |
| 发明人 | 汤昭荣; 唐晓瑜; 崔姝瑶; 邱吉冰 |
| 地址 | 浙江省杭州市文一西路1818号 |
摘要文本
本发明公开了一种计算机集群的NPU容错调度系统,基于支持硬件健康度查询的NPU设备、具备节点内NPU卡群以及多节点集群拓扑,实现了节点级和系统级的容错。通过定义NPU卡的亲和度计算和工作负载状态,实现了考虑硬件亲和性和实时负载的任务调度。此外,系统针对推理任务和训练任务提出了不同的容错机制,能够对应单事件翻转错误和宕机错误进行调度。相比于传统的硬件冗余方式,本发明的系统在资源利用效率、实时性、自适应性等方面有了显著提升,更适应大规模、复杂的计算环境。 数据由马 克 数 据整理
专利主权项内容
1.一种计算机集群的NPU容错调度系统,其特征在于,所述系统包括若干节点组成的多节点集群拓扑,其中一个所述节点为一个具有卡群拓扑的计算机设备,所述卡群拓扑由若干NPU卡组成,所述NPU卡支持健康度查询和运行状态查询,其中所述健康度为NPU卡正常运行的能力,根据处理深度学习任务时的性能参数评估得到,运行状态是指NPU卡的实时计算资源使用率、存储资源使用率和温度信息;所述节点分为控制节点和工作节点;所述工作节点上运行有节点状态收集单元,所述节点状态收集单元用于周期性收集NPU卡的运行状态和健康度;所述控制节点上运行有任务调度单元,所述任务调度单元用于在NPU卡状态异常的条件下,根据所述节点状态收集单元收集的运行状态和健康度信息,结合自身存储的已分配<任务, 节点>列表,对任务进行调度。