一种多芯片互连系统及方法
摘要文本
本发明公开了一种多芯片互连系统及方法,涉及芯片技术领域,包括芯片故障历史数据收集模块、芯片故障评估模块、芯片故障监测模块、数据储存模块以及任务调度模块,所述芯片故障评估模块包括有芯片故障分级模块、芯片故障判断模块以及芯片故障预警处理模块,其中,各个模块之间电性连接;所述芯片故障历史数据收集模块,用于预先收集芯片运行过程中的历史故障数据,并将历史故障数据发送至芯片故障分级模块。本发明根据故障的严重性和影响程度进行划分,将芯片故障分为不同的级别,并针对不同级别的故障采取不同的控制和修复措施,检测到芯片故障时,可根据芯片故障严重状况,重新分配任务和资源,降低故障芯片对整体系统的影响程度。
申请人信息
- 申请人:中诚华隆计算机技术有限公司
- 申请人地址:100012 北京市朝阳区来广营乡紫月路18号院3号楼8层
- 发明人: 中诚华隆计算机技术有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种多芯片互连系统及方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311820906.3 |
| 申请日 | 2023/12/27 |
| 公告号 | CN117472639B |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G06F11/07 |
| 权利人 | 中诚华隆计算机技术有限公司 |
| 发明人 | 王嘉诚; 张少仲 |
| 地址 | 北京市朝阳区来广营乡紫月路18号院3号楼8层 |
专利主权项内容
1.一种多芯片互连系统,其特征在于:包括芯片故障历史数据收集模块、芯片故障评估模块、芯片故障监测模块、数据储存模块以及任务调度模块,所述芯片故障评估模块包括有芯片故障分级模块、芯片故障判断模块以及芯片故障预警处理模块,其中,各个模块之间电性连接;所述芯片故障历史数据收集模块,用于预先收集芯片运行过程中的历史故障数据,并将历史故障数据发送至芯片故障分级模块;所述芯片故障分级模块,用于根据芯片故障严重性和影响程度进行风险等级划分,获取故障风险分类表和芯片故障等级,所述故障风险分类表和芯片故障等级的获取过程为,基于芯片运行的历史故障数据,根据芯片故障严重性和影响程度划分风险等级;设定三级故障等级标准,一级风险,低风险,对系统无危害影响;二级风险,中度风险,对系统存在轻微影响;三级风险,高风险,需立刻整改,无法继续作业;对芯片故障数据进行标记,并获取故障风险分类表;将故障风险分类表储存到数据储存模块中;所述芯片故障判断模块,基于故障风险评估表及相关历史故障数据,获取故障判断指数并评估芯片故障的对应风险等级,将评估结果发送至芯片故障预警理模块,所述故障判断指数的获取过程为根据芯片历史故障数据总量,获取故障的发生频率、影响程度指数以及不同风险等级的故障数量;基于影响范围权重、持续时间权重以及修复难度权重决定获取影响程度指数;根据芯片历史故障数据总量、故障的发生频率、影响程度指数以及不同风险等级的故障数量,获取故障判断指数并评估芯片故障的对应风险等级;设定芯片故障风险等级的预设阈值,判断故障等级,故障判断指数的计算公式为:
; 其中,表示故障判断指数,/>表示故障的发生次数,/>表示该风险等级的故障数量,/>表示故障发生次数的历史平均值,/>表示该风险等级故障数量的历史平均值,/>表示历史数据的总量,/>为故障时间间隔,/>表示影响范围权重,/>表示持续时间权重,/>表示修复难度权重,所述影响范围权重/>,基于故障影响的芯片数量决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值;持续时间权重,基于故障持续时间的长短决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值;修复难度权重,基于修复难易程度决定,分为三个等级,从低到高分别赋予0.2、0.3、0.4的权重值,所述故障等级的判断过程为,基于故障判断指数,设定故障等级阈值;设定一级风险阈值范围、二级风险阈值范围以及三级风险阈值范围;根据风险等级判断故障等级,采取措施处理故障,所述一级风险阈值范围为;所述二级风险阈值范围为;所述三级风险阈值范围为;所述芯片故障监测模块,用于对多芯片互连系统的各个芯片进行监控,收集芯片的故障数据;所述芯片故障预警处理模块,用于根据故障评估结果与芯片故障监测模块收集的芯片故障数据的影响程度指数比对,基于芯片故障风险等级,采取措施处理故障,所述处理措施为,对于一级风险的故障,记录故障状态,定期进行监测和观察;对于二级风险的故障,均衡芯片负载,减少故障芯片的任务执行量,限制故障影响范围,将任务分配至其他芯片;对于三级风险的故障,采取紧急处理措施及优先处理措施,停止故障芯片的使用,绕过故障芯片,根据芯片的工作状态和任务的重要性,设定不同的任务优先级,当多个任务需要执行时,优先执行优先级高的任务,延迟执行或使用其他正常芯片执行优先级低的任务;所述数据储存模块,用于储存芯片故障历史数据以及故障风险评估表;所述任务调度模块,用于基于芯片故障预警处理模块的处理措施,安排芯片的任务分配。