← 返回列表
基于计算单元部署的模型推理方法、装置、设备及介质
摘要文本
本申请公开了一种基于计算单元部署的模型推理方法、装置、设备及介质,其中,所述方法包括:获取待推理模型;在所述待推理模型的至少两个推理阶段,采用不同的并行部署方式分别将所述待推理模型拆分并部署在集群中的多个计算单元;其中,所述并行部署方式表征通过所述多个计算单元对拆分的各部分执行并行处理;获取所述多个计算单元各自处理得到的子推理结果;基于所述多个计算单元的所述子推理结果,确定所述待推理模型的目标推理结果。本申请可以充分利用各个计算单元的性能,从而能够提高集群的资源利用率,同时降低推理延迟。 关注公众号专利查询网
申请人信息
- 申请人:摩尔线程智能科技(北京)有限责任公司
- 申请人地址:100036 北京市海淀区翠微中里14号楼四层B655
- 发明人: 摩尔线程智能科技(北京)有限责任公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于计算单元部署的模型推理方法、装置、设备及介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311866372.8 |
| 申请日 | 2023/12/31 |
| 公告号 | CN117494816B |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06N5/04 |
| 权利人 | 摩尔线程智能科技(北京)有限责任公司 |
| 发明人 | 请求不公布姓名 |
| 地址 | 北京市海淀区翠微中里14号楼四层B655 |
专利主权项内容
1.一种基于计算单元部署的模型推理方法,其特征在于,所述基于计算单元部署的模型推理方法包括:获取待推理模型;在所述待推理模型的至少两个推理阶段,采用不同的并行部署方式分别将所述待推理模型拆分并部署在集群中的多个计算单元;其中,所述并行部署方式表征通过所述多个计算单元对拆分的各部分执行并行处理;获取所述多个计算单元各自处理得到的子推理结果;基于所述多个计算单元分别对应的所述子推理结果,确定所述待推理模型的目标推理结果;所述方法还包括:获取所述集群中各计算单元的性能参数;利用所述性能参数进行性能建模,确定所述各计算单元中计算资源的目标模拟配置;基于所述目标模拟配置和所述至少两个推理阶段各自的计算特点,确定所述不同的并行部署方式。