一种深度学习推理服务调度方法、系统、设备及存储介质
摘要文本
本发明公开一种深度学习推理服务调度方法、系统、设备及存储介质,涉及计算机软件技术领域,包括:根据当前推理任务的延迟要求,确定所述当前推理任务的延迟敏感类型;当确定所述当前推理任务的延迟敏感类型为延迟敏感时,对所述当前推理任务进行实时调度处理;当确定所述当前推理任务的延迟敏感类型为延迟不敏感时,将所述当前推理任务放置于电价低谷期间进行调度处理。。 (来自 马克数据网)
申请人信息
- 申请人:西南民族大学
- 申请人地址:610000 四川省成都市双流区航空港开发区大件路文星段168号
- 发明人: 西南民族大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种深度学习推理服务调度方法、系统、设备及存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311680129.7 |
| 申请日 | 2023/12/8 |
| 公告号 | CN117376423B |
| 公开日 | 2024/3/12 |
| IPC主分类号 | H04L67/61 |
| 权利人 | 西南民族大学 |
| 发明人 | 周攀; 刘玲; 尔古打机; 蔡英; 陈曦; 马波 |
| 地址 | 四川省成都市双流区航空港开发区大件路文星段168号 |
专利主权项内容
1.一种深度学习推理服务调度方法,其特征在于,包括:根据当前推理任务的延迟要求,确定所述当前推理任务的延迟敏感类型;当确定所述当前推理任务的延迟敏感类型为延迟敏感时,对所述当前推理任务进行实时调度处理,其包括:根据所述当前推理任务的满足延迟期限,确定所述当前推理任务所需要的最少GPU数量;根据所述当前推理任务所需要的最少GPU数量,确定所述当前推理任务的任务归类;当确定所述当前推理任务的任务归类为大任务时,将所述当前推理任务放置于大任务集合中进行实时调度处理;当确定所述当前推理任务的任务归类为小任务时,将所述当前推理任务放置于小任务集合中进行实时调度处理;其中,所述根据所述当前推理任务的满足延迟期限,确定所述当前推理任务所需要的最少GPU数量包括:根据所述当前推理任务的满足延迟期限,建立第一优化模型;通过求解所述第一优化模型,得到所述当前推理任务所需要的最少GPU数量;其中,所述根据所述当前推理任务所需要的最少GPU数量,确定所述当前推理任务的任务归类包括:将所述当前推理任务所需要的最少GPU数量与GPU服务器上的GPU数量进行比较;若所述当前推理任务所需要的最少GPU数量大于所述GPU服务器上的GPU数量,则确定所述当前推理任务的任务归类为大任务;若所述当前推理任务所需要的最少GPU数量不大于所述GPU服务器上的GPU数量,则确定所述当前推理任务的任务归类为小任务;当确定所述当前推理任务的延迟敏感类型为延迟不敏感时,将所述当前推理任务放置于电价低谷期间进行调度处理,其包括:当确定所述当前推理任务的延迟敏感类型为延迟不敏感时,建立第二优化模型;通过求解所述第二优化模型,得到所述当前推理任务独占GPU集群的吞吐量;利用所述当前推理任务独占GPU集群的吞吐量,计算所述当前推理任务独占GPU集群的完成时间;将所有任务按照其完成时间从小到大的顺序进行排序;集群按照该顺序依次部署于集群中,将集群的所有空闲GPU都分配给当前次序的推理任务,当前推理任务完成后,再将所有空闲GPU分配给下一个次序的推理任务。 详见官网: