← 返回列表

相关度模型数据处理方法、装置、计算机设备和存储介质

申请号: CN202410042267.0
申请人: 腾讯科技(深圳)有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 相关度模型数据处理方法、装置、计算机设备和存储介质
专利类型 发明授权
申请号 CN202410042267.0
申请日 2024/1/11
公告号 CN117556275B
公开日 2024/4/2
IPC主分类号 G06F18/22
权利人 腾讯科技(深圳)有限公司
发明人 康昇; 汪翔
地址 广东省深圳市南山区高新区科技中一路腾讯大厦35层

摘要文本

本申请涉及一种相关度模型数据处理方法、装置、计算机设备和存储介质。方法涉及机器学习领域,包括:获取相关性样本组;基于相对等级标记,得到相关性样本组中相关性样本之间的等级比较结果,构建样本对数据;来对预训练相关性识别模型进行微调训练,得到样本对数据的各类损失参数;基于损失参数,对预训练相关性识别模型进行参数调整处理,得到目标相关度模型。本申请通过标注等级比较结果,来对样本对进行标注,只需完成相对等级标注,即可构造出大量的模型训练数据。而且在预训练模型的基础上来完成对相关度模型的训练,可以有效地减少相关度模型训练过程所需的样本量,从而减少相关度模型训练过程中存储占用。

专利主权项内容

1.一种相关度模型数据处理方法,其特征在于,所述方法包括:获取相关性样本组,所述相关性样本组内包含多个相关性样本和所述相关性样本之间的相对等级标记;基于所述相对等级标记,得到所述相关性样本组中相关性样本之间的等级比较结果,构建带等级比较结果标记的样本对数据,所述等级比较结果标记包括相等标记和不等标记;将所述样本对数据内的样本分别输入预训练相关性识别模型,得到第一模型输出和第二模型输出,所述预训练相关性识别模型由带二分类标记的相关性样本训练得到;当所述样本对数据携带相等标记时,基于所述第一模型输出与所述第二模型输出之间的差值,确定样本对数据的相等损失参数,当所述样本对数据携带不等标记时,基于所述第一模型输出与所述第二模型输出之间的差值,确定样本对数据的比较损失参数;基于所述第一模型输出、所述第二模型输出和所述样本对数据内样本的样本类型,确定得分损失参数,所述得分损失参数根据所述样本对数据内的样本正负类型,对所述第一模型输出和所述第二模型输出施加得分损失函数得到,用于区分所述样本对数据内的样本正负类型;基于所述比较损失参数、所述相等损失参数和所述得分损失参数,对所述预训练相关性识别模型进行参数调整处理,得到目标相关度模型。