← 返回列表
大模型的训练方法、装置、电子设备和存储介质
摘要文本
本公开涉及一种大模型的训练方法、装置、电子设备和存储介质。所述方法包括:确定目标数据处理模型中的目标参数;对于任一所述目标参数,根据所述目标参数对应的原参数矩阵的行数和列数,初始化所述目标参数对应的第一参数矩阵和所述目标参数对应的第二参数矩阵;将训练样本输入所述目标数据处理模型,通过所述目标数据处理模型输出所述训练样本对应的预测结果;根据所述训练样本对应的预测结果和所述训练样本对应的标签,确定所述目标数据处理模型对应的损失函数的值;根据所述损失函数的值,更新所述目标参数对应的第一参数矩阵、所述目标参数对应的第二参数矩阵以及所述目标数据处理模型中的非目标参数对应的第三参数矩阵。
申请人信息
- 申请人:摩尔线程智能科技(北京)有限责任公司
- 申请人地址:100080 北京市海淀区翠微中里14号楼四层B655
- 发明人: 摩尔线程智能科技(北京)有限责任公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 大模型的训练方法、装置、电子设备和存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311228444.6 |
| 申请日 | 2023/9/21 |
| 公告号 | CN117350354A |
| 公开日 | 2024/1/5 |
| IPC主分类号 | G06N3/084 |
| 权利人 | 摩尔线程智能科技(北京)有限责任公司 |
| 发明人 | 请求不公布姓名 |
| 地址 | 北京市海淀区翠微中里14号楼四层B655 |
专利主权项内容
1.一种大模型的训练方法,其特征在于,包括:确定目标数据处理模型中的目标参数;对于任一所述目标参数,根据所述目标参数对应的原参数矩阵的行数和列数,初始化所述目标参数对应的第一参数矩阵和所述目标参数对应的第二参数矩阵,其中,所述目标参数对应的第一参数矩阵的行数等于所述目标参数对应的原参数矩阵的行数,所述目标参数对应的第一参数矩阵的列数小于所述目标参数对应的原参数矩阵的列数,所述目标参数对应的第二参数矩阵的列数等于所述目标参数对应的原参数矩阵的列数,且所述目标参数对应的第二参数矩阵的行数等于所述目标参数对应的第一参数矩阵的列数;将训练样本输入所述目标数据处理模型,通过所述目标数据处理模型输出所述训练样本对应的预测结果;根据所述训练样本对应的预测结果和所述训练样本对应的标签,确定所述目标数据处理模型对应的损失函数的值;根据所述损失函数的值,更新所述目标参数对应的第一参数矩阵、所述目标参数对应的第二参数矩阵以及所述目标数据处理模型中的非目标参数对应的第三参数矩阵。