一种大语言模型软硬件协同量化加速计算方法及系统
摘要文本
本发明公布了一种大语言模型软硬件协同量化加速计算方法及系统,采用以通道为粒度处理大语言模型中的离群值,将存在大量离群值的通道整体以高精度进行存储,通过自适应量化过程、编译优化过程和硬件实现过程,实现大语言模型软硬件协同推理加速,保证了数据编码的灵活性和规整性,同时易于在系统和硬件上进行实现和部署;可重构加速器系统包括:运算模块、累加模块、解码模块、控制模块、片上缓存和主存。采用本发明,既能够有效保持量化后模型的精度,又能实现硬件高效的推理计算。
申请人信息
- 申请人:北京大学
- 申请人地址:100871 北京市海淀区颐和园路5号
- 发明人: 北京大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种大语言模型软硬件协同量化加速计算方法及系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410058901.X |
| 申请日 | 2024/1/16 |
| 公告号 | CN117574976A |
| 公开日 | 2024/2/20 |
| IPC主分类号 | G06N3/063 |
| 权利人 | 北京大学 |
| 发明人 | 孙广宇; 薛晨皓 |
| 地址 | 北京市海淀区颐和园路5号 |
专利主权项内容
1.一种大语言模型软硬件协同量化加速计算方法,其特征是,采用以通道为粒度处理大语言模型中的离群值,将存在大量离群值的通道整体以高精度进行存储,通过自适应量化过程、编译优化过程和硬件实现过程,实现大语言模型软硬件协同推理加速;包括:1)设计自适应量化算法,针对校准数据集语料文本数据,对大语言模型离群值显著的线性层进行混合精度量化,并使得混合精度量化引起的额外存储开销达到设定的目标存储开销;包括:11)从校准数据集语料数据中随机抽取文本输入到大语言模型中进行推理计算,得到大语言模型各线性层中每个激活通道的激活值的幅度;12)对于大语言模型的每个线性层,设定用于辨别离群通道的阈值,将幅度超过所设定阈值的激活通道分类为离群通道,将其他通道分类为正常通道;13)对于大语言模型的每个线性层,设定离群通道和正常通道的数据精度;14)基于全体线性层离群通道集合和离群通道精度,求出当前在计算系统主存上引起的额外存储开销;15)若当前的额外存储开销与目标存储开销不同,则通过调整全体线性层的离群通道量化超参数,即调整离群通道辨别阈值和离群通道数据精度,从而达到目标存储开销,即当前的额外存储开销与目标存储开销相同;2)大语言模型的线性层权重、输入激活和输出激活均以张量的格式存储,即线性层权重张量、线性层输入激活张量和线性层输出激活张量;大语言模型中各个层间输入输出依赖关系构成算子图;基于混合精度量化,对大语言模型的每个线性层的输入激活张量进行分块间离群通道均衡的混合精度张量数据编码,并对大语言模型的各层进行算子图级层间协同数据流优化,得到在计算系统上运行速度最快的执行方案;3)在计算系统上部署,进行模型推理计算;包括:31)从计算系统的主存读入当前线性层权重和输入激活张量数据分块,存储到计算系统的片上缓存中;32)将模型当前线性层的权重张量数据分块从片上缓存预加载到计算系统的运算模块;33)将正常输入激活通道子数据分块从缓存加载到运算模块,将离群输入激活通道子数据分块从缓存加载到解码模块,由计算系统的解码模块将解码后的数据输入运算模块,进行矩阵乘法运算,将输出激活张量数据分块结果由累加单元累加到片上缓存的对应位置;34)将输出激活张量数据分块从计算系统的片上缓存写回主存;以上步骤按照流水线的方式依次执行,即实现大语言模型软硬件协同量化加速计算。。来源:百度搜索