← 返回列表

召回模型训练方法、数据搜索方法及相关装置和程序产品

申请号: CN202311385692.1
申请人: 北京百度网讯科技有限公司
申请日期: 2023/10/24

摘要文本

本公开提供了召回模型训练方法、数据搜索方法及相关装置和程序产品,涉及深度学习、模型训练、数据搜索等人工智能技术领域。该方法包括:对真实业务语料的语料内容进行随机掩码处理,并利用得到的掩码后语料和对应的真实业务语料构建正样本,且通过随机负采样得到第一负样本;利用基于正样本和第一负样本构建出的第一训练样本,对初始召回模型进行训练,并对训练中召回模型执行多轮次的加强训练操作:将当前轮次下的训练中召回模型对测试语料返回的召回结果序列中位于最后一个正确结果后的、前预设数量的错误结果,确定为当前轮次下的第二负样本;利用基于第一训练样本和第二负样本构建出的第二训练样本,对训练中召回模型进行加强训练。

专利详细信息

项目 内容
专利名称 召回模型训练方法、数据搜索方法及相关装置和程序产品
专利类型 发明申请
申请号 CN202311385692.1
申请日 2023/10/24
公告号 CN117453857A
公开日 2024/1/26
IPC主分类号 G06F16/33
权利人 北京百度网讯科技有限公司
发明人 甘露; 张新运; 张建兵; 陈亮辉; 孙珂
地址 北京市海淀区上地十街10号百度大厦2层

专利主权项内容

1.一种召回模型训练方法,包括:通过对真实业务语料的语料内容进行随机掩码处理,得到掩码后语料;利用所述掩码后语料和对应的真实业务语料构建正样本,并通过对所述真实业务语料进行随机负采样得到第一负样本;利用基于所述正样本和所述第一负样本构建出的第一训练样本,对初始召回模型进行训练,得到训练中召回模型;对所述训练中召回模型重复执行多轮次的预设加强训练操作,直至将满足预设训练目标的训练中召回模型输出为目标召回模型:将当前轮次下的训练中召回模型对测试语料返回的召回结果序列中位于最后一个正确结果后的、前预设数量的错误召回结果,确定为当前轮次下的第二负样本;利用基于所述第一训练样本和当前轮次下的第二负样本构建出的当前轮次下的第二训练样本,对当前轮次下的训练中召回模型进行加强训练。 更多数据: