← 返回列表

大模型的训练方法、装置、电子设备和存储介质

申请号: CN202311228444.6
申请人: 摩尔线程智能科技(北京)有限责任公司
申请日期: 2023/9/21

摘要文本

本公开涉及一种大模型的训练方法、装置、电子设备和存储介质。所述方法包括:确定目标数据处理模型中的目标参数;对于任一所述目标参数,根据所述目标参数对应的原参数矩阵的行数和列数,初始化所述目标参数对应的第一参数矩阵和所述目标参数对应的第二参数矩阵;将训练样本输入所述目标数据处理模型,通过所述目标数据处理模型输出所述训练样本对应的预测结果;根据所述训练样本对应的预测结果和所述训练样本对应的标签,确定所述目标数据处理模型对应的损失函数的值;根据所述损失函数的值,更新所述目标参数对应的第一参数矩阵、所述目标参数对应的第二参数矩阵以及所述目标数据处理模型中的非目标参数对应的第三参数矩阵。

专利详细信息

项目 内容
专利名称 大模型的训练方法、装置、电子设备和存储介质
专利类型 发明申请
申请号 CN202311228444.6
申请日 2023/9/21
公告号 CN117350354A
公开日 2024/1/5
IPC主分类号 G06N3/084
权利人 摩尔线程智能科技(北京)有限责任公司
发明人 请求不公布姓名
地址 北京市海淀区翠微中里14号楼四层B655

专利主权项内容

1.一种大模型的训练方法,其特征在于,包括:确定目标数据处理模型中的目标参数;对于任一所述目标参数,根据所述目标参数对应的原参数矩阵的行数和列数,初始化所述目标参数对应的第一参数矩阵和所述目标参数对应的第二参数矩阵,其中,所述目标参数对应的第一参数矩阵的行数等于所述目标参数对应的原参数矩阵的行数,所述目标参数对应的第一参数矩阵的列数小于所述目标参数对应的原参数矩阵的列数,所述目标参数对应的第二参数矩阵的列数等于所述目标参数对应的原参数矩阵的列数,且所述目标参数对应的第二参数矩阵的行数等于所述目标参数对应的第一参数矩阵的列数;将训练样本输入所述目标数据处理模型,通过所述目标数据处理模型输出所述训练样本对应的预测结果;根据所述训练样本对应的预测结果和所述训练样本对应的标签,确定所述目标数据处理模型对应的损失函数的值;根据所述损失函数的值,更新所述目标参数对应的第一参数矩阵、所述目标参数对应的第二参数矩阵以及所述目标数据处理模型中的非目标参数对应的第三参数矩阵。