← 返回列表

一种深度学习推理服务调度方法、系统、设备及存储介质

申请号: CN202311680129.7
申请人: 西南民族大学
申请日期: 2023/12/8

摘要文本

本发明公开一种深度学习推理服务调度方法、系统、设备及存储介质,涉及计算机软件技术领域,包括:根据当前推理任务的延迟要求,确定所述当前推理任务的延迟敏感类型;当确定所述当前推理任务的延迟敏感类型为延迟敏感时,对所述当前推理任务进行实时调度处理;当确定所述当前推理任务的延迟敏感类型为延迟不敏感时,将所述当前推理任务放置于电价低谷期间进行调度处理。。 (来自 马克数据网)

专利详细信息

项目 内容
专利名称 一种深度学习推理服务调度方法、系统、设备及存储介质
专利类型 发明授权
申请号 CN202311680129.7
申请日 2023/12/8
公告号 CN117376423B
公开日 2024/3/12
IPC主分类号 H04L67/61
权利人 西南民族大学
发明人 周攀; 刘玲; 尔古打机; 蔡英; 陈曦; 马波
地址 四川省成都市双流区航空港开发区大件路文星段168号

专利主权项内容

1.一种深度学习推理服务调度方法,其特征在于,包括:根据当前推理任务的延迟要求,确定所述当前推理任务的延迟敏感类型;当确定所述当前推理任务的延迟敏感类型为延迟敏感时,对所述当前推理任务进行实时调度处理,其包括:根据所述当前推理任务的满足延迟期限,确定所述当前推理任务所需要的最少GPU数量;根据所述当前推理任务所需要的最少GPU数量,确定所述当前推理任务的任务归类;当确定所述当前推理任务的任务归类为大任务时,将所述当前推理任务放置于大任务集合中进行实时调度处理;当确定所述当前推理任务的任务归类为小任务时,将所述当前推理任务放置于小任务集合中进行实时调度处理;其中,所述根据所述当前推理任务的满足延迟期限,确定所述当前推理任务所需要的最少GPU数量包括:根据所述当前推理任务的满足延迟期限,建立第一优化模型;通过求解所述第一优化模型,得到所述当前推理任务所需要的最少GPU数量;其中,所述根据所述当前推理任务所需要的最少GPU数量,确定所述当前推理任务的任务归类包括:将所述当前推理任务所需要的最少GPU数量与GPU服务器上的GPU数量进行比较;若所述当前推理任务所需要的最少GPU数量大于所述GPU服务器上的GPU数量,则确定所述当前推理任务的任务归类为大任务;若所述当前推理任务所需要的最少GPU数量不大于所述GPU服务器上的GPU数量,则确定所述当前推理任务的任务归类为小任务;当确定所述当前推理任务的延迟敏感类型为延迟不敏感时,将所述当前推理任务放置于电价低谷期间进行调度处理,其包括:当确定所述当前推理任务的延迟敏感类型为延迟不敏感时,建立第二优化模型;通过求解所述第二优化模型,得到所述当前推理任务独占GPU集群的吞吐量;利用所述当前推理任务独占GPU集群的吞吐量,计算所述当前推理任务独占GPU集群的完成时间;将所有任务按照其完成时间从小到大的顺序进行排序;集群按照该顺序依次部署于集群中,将集群的所有空闲GPU都分配给当前次序的推理任务,当前推理任务完成后,再将所有空闲GPU分配给下一个次序的推理任务。 详见官网: