大模型的微调方法、装置、电子设备和存储介质
摘要文本
本公开涉及一种大模型的微调方法、装置、电子设备和存储介质。所述方法包括:将训练样本集划分为至少两个训练样本子集,并确定与所述至少两个训练样本子集一一对应的至少两项分解参数值,其中,所述至少两项分解参数值互不相同;将目标数据处理模型的网络层划分为第一网络层组和第二网络层组;对于所述至少两个训练样本子集中的任一训练样本子集,根据所述第一网络层组对应的原参数矩阵的行数和列数,以及所述训练样本子集对应的分解参数值,初始化所述训练样本子集对应的第一参数矩阵和第二参数矩阵;基于所述训练样本子集训练所述目标数据处理模型,并更新所述目标数据处理模型的参数。。来自马克数据网
申请人信息
- 申请人:摩尔线程智能科技(北京)有限责任公司
- 申请人地址:100080 北京市海淀区翠微中里14号楼四层B655
- 发明人: 摩尔线程智能科技(北京)有限责任公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 大模型的微调方法、装置、电子设备和存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311228447.X |
| 申请日 | 2023/9/21 |
| 公告号 | CN117350360A |
| 公开日 | 2024/1/5 |
| IPC主分类号 | G06N3/092 |
| 权利人 | 摩尔线程智能科技(北京)有限责任公司 |
| 发明人 | 请求不公布姓名 |
| 地址 | 北京市海淀区翠微中里14号楼四层B655 |
专利主权项内容
1.一种大模型的微调方法,其特征在于,包括:将训练样本集划分为至少两个训练样本子集,并确定与所述至少两个训练样本子集一一对应的至少两项分解参数值,其中,所述至少两项分解参数值互不相同;将目标数据处理模型的网络层划分为第一网络层组和第二网络层组;对于所述至少两个训练样本子集中的任一训练样本子集,根据所述第一网络层组对应的原参数矩阵的行数和列数,以及所述训练样本子集对应的分解参数值,初始化所述训练样本子集对应的第一参数矩阵和第二参数矩阵,其中,所述训练样本子集对应的第一参数矩阵的行数等于所述原参数矩阵的行数,所述训练样本子集对应的第二参数矩阵的列数等于所述原参数矩阵的列数,所述训练样本子集对应的第一参数矩阵的列数和所述训练样本子集对应的第二参数矩阵的行数等于所述训练样本子集对应的分解参数值,所述训练样本子集对应的分解参数值小于所述原参数矩阵的行数和列数;基于所述训练样本子集训练所述目标数据处理模型,得到所述训练样本子集对应的更新后的第一参数矩阵、更新后的第二参数矩阵以及更新后的第三参数矩阵,其中,所述第三参数矩阵为所述第二网络层组对应的参数矩阵;根据所述至少两个训练样本子集对应的更新后的第一参数矩阵、更新后的第二参数矩阵以及更新后的第三参数矩阵,更新所述目标数据处理模型的参数。 来自:马 克 团 队