大模型的微调方法、装置、电子设备和存储介质

申请号: CN202311228447.X

申请人: 摩尔线程智能科技(北京)有限责任公司

申请日期: 2023/9/21

摘要文本

本公开涉及一种大模型的微调方法、装置、电子设备和存储介质。所述方法包括：将训练样本集划分为至少两个训练样本子集，并确定与所述至少两个训练样本子集一一对应的至少两项分解参数值，其中，所述至少两项分解参数值互不相同；将目标数据处理模型的网络层划分为第一网络层组和第二网络层组；对于所述至少两个训练样本子集中的任一训练样本子集，根据所述第一网络层组对应的原参数矩阵的行数和列数，以及所述训练样本子集对应的分解参数值，初始化所述训练样本子集对应的第一参数矩阵和第二参数矩阵；基于所述训练样本子集训练所述目标数据处理模型，并更新所述目标数据处理模型的参数。。来自马克数据网

申请人信息

申请人:摩尔线程智能科技(北京)有限责任公司
申请人地址:100080 北京市海淀区翠微中里14号楼四层B655
发明人: 摩尔线程智能科技(北京)有限责任公司

专利详细信息

项目	内容
专利名称	大模型的微调方法、装置、电子设备和存储介质
专利类型	发明申请
申请号	CN202311228447.X
申请日	2023/9/21
公告号	CN117350360A
公开日	2024/1/5
IPC主分类号	G06N3/092
权利人	摩尔线程智能科技(北京)有限责任公司
发明人	请求不公布姓名
地址	北京市海淀区翠微中里14号楼四层B655

专利主权项内容

1.一种大模型的微调方法，其特征在于，包括：将训练样本集划分为至少两个训练样本子集，并确定与所述至少两个训练样本子集一一对应的至少两项分解参数值，其中，所述至少两项分解参数值互不相同；将目标数据处理模型的网络层划分为第一网络层组和第二网络层组；对于所述至少两个训练样本子集中的任一训练样本子集，根据所述第一网络层组对应的原参数矩阵的行数和列数，以及所述训练样本子集对应的分解参数值，初始化所述训练样本子集对应的第一参数矩阵和第二参数矩阵，其中，所述训练样本子集对应的第一参数矩阵的行数等于所述原参数矩阵的行数，所述训练样本子集对应的第二参数矩阵的列数等于所述原参数矩阵的列数，所述训练样本子集对应的第一参数矩阵的列数和所述训练样本子集对应的第二参数矩阵的行数等于所述训练样本子集对应的分解参数值，所述训练样本子集对应的分解参数值小于所述原参数矩阵的行数和列数；基于所述训练样本子集训练所述目标数据处理模型，得到所述训练样本子集对应的更新后的第一参数矩阵、更新后的第二参数矩阵以及更新后的第三参数矩阵，其中，所述第三参数矩阵为所述第二网络层组对应的参数矩阵；根据所述至少两个训练样本子集对应的更新后的第一参数矩阵、更新后的第二参数矩阵以及更新后的第三参数矩阵，更新所述目标数据处理模型的参数。来自：马克团队

大模型的微调方法、装置、电子设备和存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

大模型的微调方法、装置、电子设备和存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种焊接管路的辅助装置

一种导轨滑块刚性疲劳测试装置及其测试方法

X射线管及其阴极冷却装置、管芯组件

双歧杆菌分离培养方法

一种用于电子级硫酸生产废液的回收处理装置

自动化全内置超导磁铁磁场强度测量装置及测量方法

热门技术领域

快速入口

专利技术资料