分布式计算架构下Transformer模型映射方法
申请人信息
- 申请人:合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)
- 申请人地址:230000 安徽省合肥市高新区望江西路5089号, 中国科学技术大学先进技术研究院未来中心B1205-B1208
- 发明人: 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室)
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 分布式计算架构下Transformer模型映射方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311621734.7 |
| 申请日 | 2023/11/27 |
| 公告号 | CN117632496A |
| 公开日 | 2024/3/1 |
| IPC主分类号 | G06F9/50 |
| 权利人 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) |
| 发明人 | 葛梦柯; 康一; 陈松 |
| 地址 | 安徽省合肥市高新区望江西路5089号, 中国科学技术大学先进技术研究院未来中心B1205-B1208 |
摘要文本
本发明公开了分布式计算架构下Transformer模型映射方法,包括如下步骤:S1:将单个窗口注意力计算任务分支进行划分并分配到P×H矩形分布的节点上;S2:设定划分后窗口注意力计算任务的映射策略和权重参数分摊策略;S3:以在分布式计算芯片架构上最小化模型推理端到端的执行时间为目标,基于整数线性规划的划分映射算法,制定Transformer模型所有阶段的网络层中窗口注意力计算任务的划分映射方案;该划分映射方法及系统给出最优的窗口注意力计算任务划分和映射方案,以最大化计算资源利用率,最小化Transformer模型推理任务的运行时间。
专利主权项内容
1.分布式计算架构下Transformer模型映射方法,其特征在于,Transformer模型由多个网络层串联而成,并且每个网络层会包含若干个基于注意力的计算任务分支,映射方法包括如下步骤:S1:将单个窗口注意力计算任务分支进行划分并分配到P×H矩形分布的节点上,设定当前节点接收上一相邻节点的传递数据、并向下一相邻节点传递数据,最后一个节点向第一个节点传递数据,P表示输入的图像斑块被划分成P份,H表示注意力头被划分成H份;S2:设定划分后窗口注意力计算任务的映射策略和权重参数分摊策略;S3:以在分布式计算芯片架构上最小化模型推理端到端的执行时间为目标,基于整数线性规划的划分映射算法,制定Transformer模型所有阶段的网络层中窗口注意力计算任务的划分映射方案;其中划分映射方案具体制定如下:目标函数:约束条件:Para_volume+Dynamic_volume≤Given_capacity其中,分别为窗口注意力计算任务划分后P×H矩阵的点乘计算时间、数据传输时间和权重共享时间,/>为网络模型第s阶段的网络层的数量,X表示第s阶段的每个网络层上共有i个窗口注意力任务在第j时间层上做U[u]×V[v]的划分方式,/>1≤s≤N,U和V表示数组,u和v分别表示数组U和V的索引,/>表示网络模型第s阶段中同一网络层上的所有窗口注意力任务分批处理时的最大批次数量,等于窗口的数量/>表示网络模型第s阶段中同一网络层上的所有窗口注意力任务的数量,N表示网络模型有N个阶段,Para_volume表示每个节点上的网络参数权重所需的储存空间,Dynamic_volume表示网络推理计算时产生中间数据所需的储存空间,Given_capacity表示节点的存储器空间,·表示乘积,N表示窗口注意力任务的划分方式为U[u]×V[v]时,芯片的计算节点阵列上能容纳的窗口注意力任务的最大数量,u表示窗口注意力任务中多头被划分为U[u]等份,v表示窗口注意力任务中斑块被划分为V[v]等份,Num表示网络模型第s阶段中每个网络层在第j个时间层上窗口注意力任务的数量。s,i,j,u,vssstagessssstagestageu,vsssss, j。更多数据: