← 返回列表

一种分布式训练通信方法、装置、系统、设备及存储介质

申请号: CN202410230106.4
申请人: 浪潮电子信息产业股份有限公司
申请日期: 2024/2/29

摘要文本

本发明涉及机器学习技术领域,具体公开了一种分布式训练通信方法、装置、系统、设备及存储介质,通过根据分布式训练任务的模型精度损失函数,构建以满足梯度数据的期望稀疏度为约束条件、以模型精度损失最小化为优化目标的数据稀疏化目标函数;基于分布式训练任务的迭代计算得到的节点梯度数据和分布式训练任务的模型网络求解数据稀疏化目标函数,得到梯度数据稀疏化位置信息,从而在计算节点传输节点梯度数据时根据梯度数据稀疏化位置信息进行梯度数据稀疏化传输,使梯度数据稀疏化位置信息的生成次数小于分布式训练任务的迭代计算次数,实现了在分布式训练过程中自适应梯度数据稀疏化处理,兼具提高训练效率和保证模型精度的效果。

专利详细信息

项目 内容
专利名称 一种分布式训练通信方法、装置、系统、设备及存储介质
专利类型 发明申请
申请号 CN202410230106.4
申请日 2024/2/29
公告号 CN117808083A
公开日 2024/4/2
IPC主分类号 G06N3/098
权利人 浪潮电子信息产业股份有限公司
发明人 李兵兵; 王彦伟; 朱克峰; 黄伟; 戴钰桀; 李仁刚
地址 山东省济南市高新区草山岭南路801号9层东侧

专利主权项内容

1.一种分布式训练通信方法,其特征在于,应用于计算节点,包括:在执行分布式训练任务的当前次迭代计算得到节点梯度数据后,获取本地的梯度数据稀疏化位置信息以对所述节点梯度数据进行稀疏化处理;输出稀疏化的所述节点梯度数据以执行所述分布式训练任务的梯度数据聚合操作;其中,所述梯度数据聚合操作为利用对应的所述梯度数据稀疏化位置信息对稀疏化的所述节点梯度数据进行解码后,利用解码后的所述节点梯度数据进行的所述梯度数据聚合操作;所述梯度数据稀疏化位置信息的生成方法包括:根据所述分布式训练任务的模型精度损失函数,构建以满足梯度数据的期望稀疏度为约束条件、以模型精度损失最小化为优化目标的数据稀疏化目标函数;基于所述分布式训练任务的迭代计算得到的所述节点梯度数据和所述分布式训练任务的模型网络求解所述数据稀疏化目标函数,得到所述梯度数据稀疏化位置信息;在执行所述分布式训练任务时,所述梯度数据稀疏化位置信息的生成次数小于所述分布式训练任务的迭代计算次数。 更多数据: