一种GPU设备维护系统
摘要文本
本申请涉及设备维护技术领域,特别是涉及一种GPU设备维护系统,系统包括:GPU设备、业务端、交互代理层和操作系统层,交互代理层包括监控程序,操作系统层包括驱动,驱动将接收的异常信息发送至监控程序,监控程序向业务端发送暂停业务通知信息,业务端暂停业务,收集GPU设备的运行状态信息,发送复位通知信息至监控程序,监控程序再发给驱动,驱动生成复位命令发给GPU设备,GPU设备执行复位操作,形成复位完成信息,配置运行状态信息,继续执行业务。可知,复位命令仅发送给异常GPU设备,在GPU设备执行复位操作,能够针对异常GPU设备维护,由业务端收集GPU设备的运行状态信息,在GPU设备复位之后重新配置,保证在GPU设备维护后能够继续执行业务。。
申请人信息
- 申请人:沐曦科技(北京)有限公司
- 申请人地址:100094 北京市海淀区丰豪东路9号院2号楼9层3单元901
- 发明人: 沐曦科技(北京)有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种GPU设备维护系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311673254.5 |
| 申请日 | 2023/12/7 |
| 公告号 | CN117707848A |
| 公开日 | 2024/3/15 |
| IPC主分类号 | G06F11/14 |
| 权利人 | 沐曦科技(北京)有限公司 |
| 发明人 | 张志杰; 黄勇才 |
| 地址 | 北京市海淀区丰豪东路9号院2号楼9层3单元901 |
专利主权项内容
1.一种GPU设备维护系统,其特征在于,所述系统包括:GPU设备集合A={a,a,…,a,…,a}、与a对应的业务端b、交互代理层和操作系统层,所述交互代理层包括监控程序,所述操作系统层包括驱动,a={e,e,…,e,…,e},其中,a为第i个GPU设备,i为[1,I]范围内的整数,I为GPU设备的总数量,e为第i个GPU设备中的第j个寄存器,J为第i个GPU设备中寄存器的总数量;12iIiiii1i2ijiJiij所述驱动用于在接收到a发送的异常信息f时,将f发送至所述监控程序;iii所述驱动还用于在接收到所述监控程序发送的复位通知信息g时,根据g,生成复位命令G,将G发送给a;iiiii所述监控程序用于在接受到f时,向b发送暂停业务通知信息h;iii所述监控程序还用于在接受到g时,将g发送给所述驱动;ii所述业务端b用于在接受到h时,暂停a对应的业务k,向所述监控程序发送g,访问a收集a中所有寄存器的值作为运行状态信息l;iiiiiiii所述业务端b还用于在检测到复位完成信息后,使用l配置a,继续执行k;iiii所述GPU设备a用于向所述驱动发送f,接受b的访问并将所有寄存器的值发送给b;iiii所述GPU设备a还用于在接受到G时,执行复位操作,在复位操作执行完毕后,形成所述复位完成信息。ii