← 返回列表
基于模块化和序列化自动生成神经网络的方法
摘要文本
本发明公开了一种基于模块化和序列化自动生成神经网络的方法,包括基于基础模块通过torchviz工具获取基础模块计算子图,获得各预训练模型计算图,基于基础模块计算子图将各预训练模型计算图分别转化为由于基础模块构建的模块化的模型计算图,在模块化的模型计算图中将部分基础模块组合成对应的功能单元从而得到粗颗粒化的模型计算图;编码各粗颗粒化的模型计算图得到字符序列,并作为训练集,通过训练集训练序列生成模型得到序列生成网络;将序列生成网络输出的预测字符序列转化为预测模型计算图。该方法降低了计算的复杂程度,提高了计算效率。
申请人信息
- 申请人:浙江大学
- 申请人地址:310058 浙江省杭州市西湖区余杭塘路866号
- 发明人: 浙江大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于模块化和序列化自动生成神经网络的方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311278835.9 |
| 申请日 | 2023/10/7 |
| 公告号 | CN117010459B |
| 公开日 | 2024/2/9 |
| IPC主分类号 | G06N3/0475 |
| 权利人 | 浙江大学 |
| 发明人 | 徐仁军; 许晓扬 |
| 地址 | 浙江省杭州市西湖区余杭塘路866号 |
专利主权项内容
1.一种基于模块化和序列化自动生成神经网络的方法,其特征在于,包括:基于基础模块通过torchviz工具获取对应的基础模块计算子图,从HuggingFace库中获得各预训练模型计算图,基于基础模块计算子图将各预训练模型计算图分别转化为由基础模块构建的模块化的模型计算图,在模块化的模型计算图中将部分基础模块组合成对应的功能单元从而得到粗颗粒化的模型计算图;对各粗颗粒化的模型计算图进行编码得到对应的字符序列,将获得的多个字符序列作为训练集,通过训练集训练序列生成模型得到序列生成网络;应用时,将部分神经网络序列输入序列生成网络得到预测字符序列,将预测字符序列转化为预测模型计算图,基于预测模型计算图得到预测神经网络的结构;所述功能单元包括全连接层、循环层、缩放点击注意力层、多头注意力层或时间递归层;所述基础模块包括卷积层、池化层、层归一化、批量归一化、反卷积层、求和层、拼接层或激活层;通过训练集训练序列生成模型得到序列生成网络,所述序列生成模型为基于序列的GPT模型,所述基于序列的GPT模型的序列编码器为transformer模型。