← 返回列表

一种异构推理后端上的可扩展负载均衡方法及系统

申请号: CN202311373531.0
申请人: 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种异构推理后端上的可扩展负载均衡方法及系统
专利类型 发明授权
申请号 CN202311373531.0
申请日 2023/10/23
公告号 CN117112239B
公开日 2024/2/9
IPC主分类号 G06F9/50
权利人 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)
发明人 张兰; 李向阳; 袁牧; 宋淼荟
地址 安徽省合肥市高新区望江西路5089号, 中国科学技术大学先进技术研究院未来中心B1205-B1208

摘要文本

本发明公开了一种异构推理后端上的可扩展负载均衡方法及系统,包括如下步骤:S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;S2:计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为步骤S3的后端选择顺序;S3:设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据步骤S2中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据步骤S2中优先级排序去掉一个低优先级的推理后端;该可扩展负载均衡方法及系统实现自适应的精度‑延迟权衡。

专利主权项内容

1.一种异构推理后端上的可扩展负载均衡方法,其特征在于,包括如下步骤:S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;S2:计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为步骤S3的后端选择顺序;S3:设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据步骤S2中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据步骤S2中优先级排序去掉一个低优先级的推理后端;在步骤S1:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,具体包括:将多个推理后端中的其中一个后端作为黄金标准后端;在一个时间窗口内收集进入包含黄金标准后端和其他推理后端的数据对,并记录数据对在黄金标准后端的输出结果;以数据对在黄金标准后端的输出结果为标准,计算其他推理后端输出部分重合数据对的输出结果精度,以该输出结果精度估计其他推理后端推理精度;步骤S2的推理后端优先级计算过程如下:其中,表示精度和时延权衡能力值,/>表示第/>个推理后端,/>表示第/>个推理后端的推理精度,/>表示第/>个推理后端的服务速率,/>表示常数;在步骤S3的计算上一个查询队列和当前查询队列的等待时间中,其中查询队列的具体公式如下:其中,表示等待时间,/>表示查询队列,/>表示队列长度,/>表示前/>个推理后端的平均服务速率,/>表示查询请求的到达速率,/>表示最大等待时间。