← 返回列表

数据增强模型训练及数据处理方法、装置、设备、介质

申请号: CN202410078708.2
申请人: 腾讯科技(深圳)有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 数据增强模型训练及数据处理方法、装置、设备、介质
专利类型 发明申请
申请号 CN202410078708.2
申请日 2024/1/19
公告号 CN117609887A
公开日 2024/2/27
IPC主分类号 G06F18/2415
权利人 腾讯科技(深圳)有限公司
发明人 陈煜钊
地址 广东省深圳市南山区高新区科技中一路腾讯大厦35层

摘要文本

本申请提供了一种数据增强模型训练及数据处理方法、装置、设备、介质;方法包括:基于源域训练样本数据,确定预训练模型的模型参数,并基于模型参数确定数据增强模型;针对每一目标域训练样本数据,在采用目标域训练样本数据对数据增强模型进行模型训练,得到更新后的数据增强模型之后,基于锚定数据,分别对预训练模型和更新后的数据增强模型进行模型训练,对应得到基础损失函数值与更新损失函数值;根据更新损失函数值与基础损失函数值,从目标域训练样本集中筛选出至少一个扩充样本数据;基于源域样本数据和至少一个扩充样本数据,对数据增强模型进行迭代训练,得到训练后的数据增强模型。通过本申请,能够提升数据增强模型的模型性能。

专利主权项内容

1.一种数据增强模型训练方法,其特征在于,所述方法包括:获取源域样本数据集和目标域训练样本集;所述源域样本数据集包括源域训练样本集和锚定数据集;基于所述源域训练样本集中的源域训练样本数据,对预设的基础模型进行模型预训练,得到预训练模型的模型参数,并基于所述模型参数确定数据增强模型;针对所述目标域训练样本集中的每一目标域训练样本数据,在采用所述目标域训练样本数据对所述数据增强模型进行模型训练,得到与所述目标域训练样本数据对应的更新后的数据增强模型之后,基于所述锚定数据集中的锚定数据,分别对所述预训练模型和所述更新后的数据增强模型进行模型训练,对应得到基础损失函数值与更新损失函数值;根据所述更新损失函数值与所述基础损失函数值,从所述目标域训练样本集中筛选出至少一个扩充样本数据;基于所述源域样本数据集中的源域样本数据和所述至少一个扩充样本数据,对所述数据增强模型进行迭代训练,得到训练后的数据增强模型。