大模型的训练方法、装置、电子设备和存储介质

申请号: CN202311228444.6

申请人: 摩尔线程智能科技(北京)有限责任公司

申请日期: 2023/9/21

摘要文本

本公开涉及一种大模型的训练方法、装置、电子设备和存储介质。所述方法包括：确定目标数据处理模型中的目标参数；对于任一所述目标参数，根据所述目标参数对应的原参数矩阵的行数和列数，初始化所述目标参数对应的第一参数矩阵和所述目标参数对应的第二参数矩阵；将训练样本输入所述目标数据处理模型，通过所述目标数据处理模型输出所述训练样本对应的预测结果；根据所述训练样本对应的预测结果和所述训练样本对应的标签，确定所述目标数据处理模型对应的损失函数的值；根据所述损失函数的值，更新所述目标参数对应的第一参数矩阵、所述目标参数对应的第二参数矩阵以及所述目标数据处理模型中的非目标参数对应的第三参数矩阵。

申请人信息

申请人:摩尔线程智能科技(北京)有限责任公司
申请人地址:100080 北京市海淀区翠微中里14号楼四层B655
发明人: 摩尔线程智能科技(北京)有限责任公司

专利详细信息

项目	内容
专利名称	大模型的训练方法、装置、电子设备和存储介质
专利类型	发明申请
申请号	CN202311228444.6
申请日	2023/9/21
公告号	CN117350354A
公开日	2024/1/5
IPC主分类号	G06N3/084
权利人	摩尔线程智能科技(北京)有限责任公司
发明人	请求不公布姓名
地址	北京市海淀区翠微中里14号楼四层B655

专利主权项内容

1.一种大模型的训练方法，其特征在于，包括：确定目标数据处理模型中的目标参数；对于任一所述目标参数，根据所述目标参数对应的原参数矩阵的行数和列数，初始化所述目标参数对应的第一参数矩阵和所述目标参数对应的第二参数矩阵，其中，所述目标参数对应的第一参数矩阵的行数等于所述目标参数对应的原参数矩阵的行数，所述目标参数对应的第一参数矩阵的列数小于所述目标参数对应的原参数矩阵的列数，所述目标参数对应的第二参数矩阵的列数等于所述目标参数对应的原参数矩阵的列数，且所述目标参数对应的第二参数矩阵的行数等于所述目标参数对应的第一参数矩阵的列数；将训练样本输入所述目标数据处理模型，通过所述目标数据处理模型输出所述训练样本对应的预测结果；根据所述训练样本对应的预测结果和所述训练样本对应的标签，确定所述目标数据处理模型对应的损失函数的值；根据所述损失函数的值，更新所述目标参数对应的第一参数矩阵、所述目标参数对应的第二参数矩阵以及所述目标数据处理模型中的非目标参数对应的第三参数矩阵。

大模型的训练方法、装置、电子设备和存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

大模型的训练方法、装置、电子设备和存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种焊接管路的辅助装置

一种导轨滑块刚性疲劳测试装置及其测试方法

X射线管及其阴极冷却装置、管芯组件

双歧杆菌分离培养方法

一种用于电子级硫酸生产废液的回收处理装置

自动化全内置超导磁铁磁场强度测量装置及测量方法

热门技术领域

快速入口

专利技术资料