← 返回列表

一种基于大语言模型的数据检索系统

申请号: CN202311843754.9
申请人: 安徽大学
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种基于大语言模型的数据检索系统
专利类型 发明授权
申请号 CN202311843754.9
申请日 2023/12/29
公告号 CN117493585B
公开日 2024/3/22
IPC主分类号 G06F16/38
权利人 安徽大学
发明人 张玉齐; 褚诗伟; 鲍文霞
地址 安徽省合肥市经济技术开发区九龙路111号

摘要文本

本发明公开了一种基于大语言模型的数据检索系统,包括:转换模型,对输入语言进行跨语言的转换,将输入语言转换为输出语言,基于输出语言进行大语言模型的数据检索,对输入语言进行扩展检索,生成扩展语言集,根据扩展语言集与输入语言之间的关联度进行计算,获取扩展语言集中输入语言的语义,根据输入语言语义的限定,进行输入语言与输出语言的转换。本发明通过对关键词的扩展来增加对关键词语义的限定,并根据所生成的限定来缩小跨语言的语义,从而增加跨语言进行关键词的检索时,输入语言与输出语言之间的相通性,进而来确保在进行跨语言检索时,反馈结果与预期值的匹配程度。

专利主权项内容

1.一种基于大语言模型的数据检索系统,其特征在于,包括:转换模型,对输入语言进行跨语言的转换,将输入语言/>转换为输出语言/>,基于输出语言/>进行大语言模型的数据检索,对输入语言/>进行扩展检索,生成扩展语言集,根据扩展语言集与输入语言/>之间的关联度进行计算,获取扩展语言集中输入语言的语义,根据输入语言/>语义的限定,进行输入语言/>与输出语言/>的转换;语义限定模型,对输入语言进行关键词的检索,将关键词筛选为核心关键词/>和限定关键词/>,通过限定关键词/>增加对核心关键词/>的语义限定,对语义限定对核心关键词/>以及限定关键词/>的语言转换;关键词的检索包括对副助词的筛选,首先将输入语言拆分为不同的词语,即对输入语言/>中所出现的词语语义进行检索,前后形成完整语义的词语即为一个组成词/>,在出现歧义词语/>与前后词语均能够形成完整语义时,对歧义词语与前后词语的语义匹配度/>进行计算;对组成词的核心关键词/>和限定关键词/>的筛选,计算每两个组成词/>进行检索出现的组合检索数量/>,即:
;其中,为第个组成词/>出现数量,/>为第个组成词/>出现的数量,/>为第个组成词/>与第个组成词/>的重复出现数量;xnxn分别计算每两个组成词出现的数量,并筛选组合检索数量/>最大的组成词/>,两个组成词/>中出现数量进行对比,组成词/>出现次数多的标记为核心关键词/>,其余组成词/>为限定关键词/>;校对模块,在输入语言转换为输出语言/>后,对核心关键词/>以及限定关键词/>的语义限定转换来修改输出语言/>,改变大语言模型的反馈结果。。