← 返回列表

基于知识图谱的文本索引增强问答方法及系统

申请号: CN202311754403.0
申请人: 苏州体素信息科技有限公司
申请日期: 2023/12/20

摘要文本

本发明提供了一种基于知识图谱的文本索引增强问答方法及系统,包括:构建知识图谱步骤:根据知识语料库,构建带有知识语料库文本索引的知识图谱;知识匹配步骤:在知识图谱中匹配知识三元组,并将提取知识三元组对应的文本片段作为输入,最终生成回答。本发明将文章或一段话中的不同知识要点分解并用知识三元组这种精确和明确的方式进行编码检索,更容易进行知识整合和信息去噪,提高了检索效率和召回率,减少了检索错误的可能性;本发明在知识图谱的知识三元组中加入文章特定知识点对应段落和句子的索引,从而能够从知识图谱中找到文章语料库的对应语句或特定段落;本发明给大语言模型提供额外信息,从而提高大语言模型在新领域的回答质量。

专利详细信息

项目 内容
专利名称 基于知识图谱的文本索引增强问答方法及系统
专利类型 发明授权
申请号 CN202311754403.0
申请日 2023/12/20
公告号 CN117453851B
公开日 2024/3/19
IPC主分类号 G06F16/31
权利人 苏州体素信息科技有限公司
发明人 党康; 蒋昌龙
地址 江苏省苏州市保税区华达路36号新兴产业育成中心A栋217室

专利主权项内容

微信公众号马克数据网 1.一种基于知识图谱的文本索引增强问答方法,其特征在于,包括:构建知识图谱步骤:根据知识语料库,构建带有知识语料库文本索引的知识图谱;知识匹配步骤:在知识图谱中匹配知识三元组,并将提取知识三元组对应的文本片段作为输入,最终生成回答;所述构建知识图谱步骤包括:构建资料库步骤:从新领域的文献、书籍资料构建知识语料库;其中,知识语料库包含多篇或多段文本,每篇或每段文本都对应一个唯一的文本索引;提取构建知识图谱步骤:利用自然语言处理技术或大语言模型从知识语料库中提取构建知识图谱;其中,知识图谱由知识三元组组成,每个知识三元组包含主体、关系和客体,并且每个知识三元组存储了原有知识语料库中对应的文本索引;优化步骤:利用现有的知识图谱作为知识增强器,根据提取构建知识图谱步骤生成的知识图谱,从现有的知识图谱中检索和融合相关的知识信息;同时,利用图卷积网络来建模实体和关系之间的结构依赖性,去除知识图谱中的冗余和噪音;所述知识匹配步骤包括:提取步骤:根据用户提问,提取出问题的关键实体和关系;具体地,利用自然语言处理技术或大语言模型对用户提问进行分句、分词、词性标注、命名实体识别、依存句法分析的预处理操作;搜索步骤:利用基于规则、机器学习或大语言模型的方法从问题中抽取出关键实体和关系,将抽取出的实体和关系作为查询条件,在知识图谱中搜索与查询条件匹配或相似的知识三元组,并根据匹配度或相似度进行排序;匹配步骤:根据搜索到的知识三元组,提取出知识三元组所对应的文本索引,并根据文本索引在语料库中找到相应的文本片段;生成回答步骤:将提取出的文本片段加入到提示语中作为大语言模型的输入,生成回答;其中,将提取出的文本片段按照一定的格式拼接在问题后面,形成一个完整的提示语,将提示语作为大语言模型的输入,利用大语言模型生成回答。