← 返回列表

一种计算机集群的NPU容错调度系统

申请号: CN202410110185.5
申请人: 之江实验室
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种计算机集群的NPU容错调度系统
专利类型 发明申请
申请号 CN202410110185.5
申请日 2024/1/26
公告号 CN117632444A
公开日 2024/3/1
IPC主分类号 G06F9/48
权利人 之江实验室
发明人 汤昭荣; 唐晓瑜; 崔姝瑶; 邱吉冰
地址 浙江省杭州市文一西路1818号

摘要文本

本发明公开了一种计算机集群的NPU容错调度系统,基于支持硬件健康度查询的NPU设备、具备节点内NPU卡群以及多节点集群拓扑,实现了节点级和系统级的容错。通过定义NPU卡的亲和度计算和工作负载状态,实现了考虑硬件亲和性和实时负载的任务调度。此外,系统针对推理任务和训练任务提出了不同的容错机制,能够对应单事件翻转错误和宕机错误进行调度。相比于传统的硬件冗余方式,本发明的系统在资源利用效率、实时性、自适应性等方面有了显著提升,更适应大规模、复杂的计算环境。 数据由马 克 数 据整理

专利主权项内容

1.一种计算机集群的NPU容错调度系统,其特征在于,所述系统包括若干节点组成的多节点集群拓扑,其中一个所述节点为一个具有卡群拓扑的计算机设备,所述卡群拓扑由若干NPU卡组成,所述NPU卡支持健康度查询和运行状态查询,其中所述健康度为NPU卡正常运行的能力,根据处理深度学习任务时的性能参数评估得到,运行状态是指NPU卡的实时计算资源使用率、存储资源使用率和温度信息;所述节点分为控制节点和工作节点;所述工作节点上运行有节点状态收集单元,所述节点状态收集单元用于周期性收集NPU卡的运行状态和健康度;所述控制节点上运行有任务调度单元,所述任务调度单元用于在NPU卡状态异常的条件下,根据所述节点状态收集单元收集的运行状态和健康度信息,结合自身存储的已分配<任务, 节点>列表,对任务进行调度。