← 返回列表

大语言模型的训练方法、代码生成方法、设备及存储介质

申请号: CN202410162402.5
申请人: 粤港澳大湾区数字经济研究院(福田)
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 大语言模型的训练方法、代码生成方法、设备及存储介质
专利类型 发明申请
申请号 CN202410162402.5
申请日 2024/2/5
公告号 CN117709435A
公开日 2024/3/15
IPC主分类号 G06N3/086
权利人 粤港澳大湾区数字经济研究院(福田)
发明人 刘一博; 潘昆豪; 张家兴; 何峻青; 甘如饴
地址 广东省深圳市福田区福保街道市花路长富金茂大厦1号楼39楼3901单元

摘要文本

本申请公开了一种大语言模型的训练方法、代码生成方法、设备及存储介质,方法包括基于第一训练样本集对预设语言模型进行全参数微调,得到初始大语言模型;在所述第一训练样本集中选取种子数据集,并基于所述种子数据集构建第二训练数据集;基于所述第二训练样本集对所述初始大语言模型进行全参数微调,得到经过训练的大语言模型。本申请先采用第一训练样本集对预设语言模型进行训练,然后基于第一训练样本集中的指令数据生成携带有更多信息量的第二训练样本集,并通过第二训练样本集对初始大语言模型进行微调,这样可以使得大语言模型更好地理解人类意图,从而可以提高大语言模型的生成效果。

专利主权项内容

1.一种大语言模型的训练方法,其特征在于,所述的大语言模型的训练方法具体包括:基于第一训练样本集对预设语言模型进行全参数微调,得到初始大语言模型;在所述第一训练样本集中选取种子数据集,并基于所述种子数据集构建第二训练数据集,其中,所述第二训练数据集中包括若干训练数据,若干训练数据中至少存在一个目标训练数据,所述目标训练数据所包括的数据信息多于用于构建所述训练数据的种子数据;基于所述第二训练样本集对所述初始大语言模型进行全参数微调,得到经过训练的大语言模型。