一种抗辐射低延迟神经网络推理加速芯片
摘要文本
本发明提供了一种抗辐射低延迟神经网络推理加速芯片,涉及对撞机技术领域,包括以下步骤:在探测器前端部署神经网络推理加速芯片,采用流式架构,将每级流水线对应于每个主要的神经网络层,平衡有限的片上内存资源和对大尺寸输入的支持,并构建层并行、通道并行和卷积核并行;本发明提出了在探测器前端部署抗辐射、低延迟、高效的卷积神经网络推理加速芯片,来提高未来探测器硬件的智能化水平,并为此提出了基于细粒度的流式架构、细粒度的存储管理、灵活的压缩和量化,以及抗辐射数字芯片设计技术,在实现抗辐射、低延迟推理的同时,实现高吞吐量和低片上内存消耗,使下一代新型智能探测器可以在前端实施基于神经网络算法的实时分析触发。
申请人信息
- 申请人:华中师范大学
- 申请人地址:430079 湖北省武汉市洪山区珞瑜路152号
- 发明人: 华中师范大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种抗辐射低延迟神经网络推理加速芯片 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311798002.5 |
| 申请日 | 2023/12/26 |
| 公告号 | CN117474061B |
| 公开日 | 2024/3/19 |
| IPC主分类号 | G06N3/063 |
| 权利人 | 华中师范大学 |
| 发明人 | 肖乐; 张国香; 周子杰; 代文杰; 孙向明; 游必辉 |
| 地址 | 湖北省武汉市珞喻路152号 |
专利主权项内容
1.一种抗辐射低延迟神经网络推理加速芯片,其特征在于,所述神经网络推理加速芯片设置在探测器前端,具体包括:若干依次连接的流式架构单元:用于实现不同的神经网络层的计算;以及外部存储单元:用于存储整个神经网络的权重;以及分别对辐射的总剂量效应TID和单粒子效应SEE采取措施的抗辐射模块,包括:TID缓解子模块:采用先进节点的CMOS工艺,避免使用小尺寸标准单元,预留更大的时序裕度;SEE缓解子模块:使用两种不同的TMR实现:简单TMR模块,具有三重寄存器和多数表决器,以及完全的TMR模块,模块内的所有组合逻辑都是三重的,由三个多数表决器使用,并形成三重寄存器的输入,来自寄存器输出的反馈可实现自动更正,状态会定时刷新的控制路径,以及周期性到达芯片的输入数据不需要自动更正功能,而一旦配置或加载后,长时间不会刷新的关键数据则使用自动更正功能来确保由于单粒子翻转而导致的寄存器错误不会随时间累积;每个流式架构单元包括:整形缓存:用于存储输入特征图切片或者前级神经网络层输出的特征图切片;神经网络子单元:用于实现计算引擎阵列,能够完成卷积层或全连接层的并行计算,卷积层和全连接层使用相同的循环结构,使用并行计算策略;权重缓存:与外部存储单元连接,用于从外部存储器中抽取计算当前特征图切片所需的权重;并行计算时,并行性来自于6个维度,具体包括:批并行性同时将多帧图像分组为批,以重用每一层中的权重,并最小化外部内存访问;层并行性通过在结束N层的执行之前启动N+1层以流水线方式执行,并对主要的层实施并行化,其余的层合并到主要层,减少流水线的级数来降低延迟,实现参数化的RTL设计;卷积层4个级别循环计算的展开提供另外4个并发源,全连接计算的循环展开提供另外4个并发源,卷积核循环Loop-4、输入通道循环Loop-3、沿输入宽、高维度扫描操作的循环Loop-2和卷积核窗口内乘法累加操作的循环Loop-1,并行展开卷积层外两层的计算循环,即卷积核循环Loop-4和输入通道循环Loop-3,外两层计算循环的展开仅需缓存输入特征图的切片就可以启动流水线开始卷积运算;卷积核并行是从权重中一次取多个卷积核,与特征图进行并行计算;输入通道并行是从输入特征图中一次取多个数据通道,与卷积核进行并行计算;卷积层外两层即卷积核循环Loop-4和输入通道循环Loop-3的并行展开,为此定义两个参数,卷积核并行度因子KPF和通道并行度因子CPF,分别表示在流水线级内处理的卷积核的数量和输入通道的数量,使计算引擎阵列实现二维并行方案,并调整每个流水线阶段的资源开销,其中,计算引擎阵列由多个计算引擎构成,每个计算引擎用于处理有CPF个通道的输入特征图,计算引擎阵列中计算引擎的数目由KPF决定,将计算引擎以硬件为中心、自下而上,构建参数化RTL级IP,基于IP构建神经网络层,判断不同CPF和KPF对推理延迟、吞吐量、硬件开销的影响。