← 返回列表

一种基于向量相似度匹配优化的检索增强生成方法

申请号: CN202410069097.5
申请人: 之江实验室
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种基于向量相似度匹配优化的检索增强生成方法
专利类型 发明申请
申请号 CN202410069097.5
申请日 2024/1/17
公告号 CN117573815A
公开日 2024/2/20
IPC主分类号 G06F16/33
权利人 之江实验室
发明人 郑楚; 郑宇化; 张北北; 高丰; 孙铭鸽
地址 浙江省杭州市余杭区中泰街道科创大道之江实验室

摘要文本

本说明书公开了一种基于向量相似度匹配优化的检索增强生成方法,确定待处理文本的特征向量,根据指定的向量数据库中的候选向量、待处理文本的特征向量以及相似度预测模型,得到候选向量与待处理文本的特征向量之间的相似度,基于相似度确定与待处理文本关联的参考文本,将待处理文本和参考文本确定的提示文本输入到预训练的自然语言模型得到目标文本。可见,通过上述方案可以基于相似度预测模型匹配得到的参考文本能够适应于指定领域,并提高参考文本的准确性,从而提高目标文本的质量。

专利主权项内容

1.一种基于向量相似度匹配优化的检索增强生成方法,其特征在于,包括:获取待处理文本,并确定所述待处理文本的特征向量;将预先构建的指定的向量数据库中存储的候选文本对应的候选向量,与所述待处理文本的特征向量作为输入,输入到预先训练的相似度预测模型,得到所述候选向量与所述待处理文本的特征向量之间的相似度;其中,所述预先训练的相似度预测模型以指定领域的文本对为训练样本、以所述指定领域的文本对的相似度为标注训练得到;根据所述候选向量与所述待处理文本的特征向量之间的相似度,从所述候选文本中确定与所述待处理文本关联的参考文本;根据所述待处理文本和所述参考文本确定提示文本,并将所述提示文本输入到预训练的自然语言模型,得到所述待处理文本对应的目标文本。 来自