← 返回列表

确定问答系统的嵌入模型参数的方法、装置及计算设备

申请号: CN202410044423.7
申请人: 北京并行科技股份有限公司
申请日期: 2024/1/11

摘要文本

本发明公开了一种确定问答系统的嵌入模型参数的方法、装置及计算设备,属于人工智能技术领域。方法包括:生成测试数据集;为嵌入模型构建多个参数组合:获取测试数据集中的任一测试数据项,通过嵌入模型基于参数组合,从向量库中搜索出与测试数据项中的查询信息相似度最高的一个或多个相似文本块;响应于搜索出的一个或多个相似文本块中包含测试数据项中的预期查询结果,确定查询信息对应的预期查询结果命中;确定测试数据集中的多个查询信息对应的预期查询结果的命中率,作为嵌入模型基于参数组合的搜索命中率;根据嵌入模型基于各个参数组合的搜索命中率,确定嵌入模型的最优参数组合。本发明能实现为嵌入模型选择搜索效果最优的参数组合。

专利详细信息

项目 内容
专利名称 确定问答系统的嵌入模型参数的方法、装置及计算设备
专利类型 发明授权
申请号 CN202410044423.7
申请日 2024/1/11
公告号 CN117556033B
公开日 2024/3/29
IPC主分类号 G06F16/335
权利人 北京并行科技股份有限公司
发明人 陈健; 乔楠; 杨昆; 翟晓更
地址 北京市海淀区西北旺东路10号院东区21号楼101-301

专利主权项内容

1.一种确定问答系统的嵌入模型参数的方法,包括:生成测试数据集,所述测试数据集包含多个测试数据项,每个所述测试数据项分别包括查询信息和对应的预期查询结果;为嵌入模型构建多个参数组合,每个所述参数组合分别包括所述嵌入模型的分块大小参数、目标检索数量参数,其中,所述分块大小参数表征对文本内容进行向量化处理时的分块大小,所述目标检索数量参数表征需要搜索出的相似文本块的数量;对于任一所述参数组合,获取所述测试数据集中的任一测试数据项,通过所述嵌入模型基于所述参数组合,从向量库中搜索出与所述测试数据项中的查询信息相似度最高的一个或多个相似文本块;响应于搜索出的所述一个或多个相似文本块中包含所述测试数据项中的预期查询结果,确定所述查询信息对应的预期查询结果命中;确定所述测试数据集中的多个查询信息对应的预期查询结果的命中率,作为所述嵌入模型基于所述参数组合的搜索命中率;根据所述嵌入模型基于各个参数组合的搜索命中率,确定所述嵌入模型的最优参数组合。 来源:马 克 团 队