← 返回列表

一种基于知识图谱的非结构化数据检索方法及系统

申请号: CN202410224168.4
申请人: 船舶信息研究中心(中国船舶集团有限公司第七一四研究所)
申请日期: 2024/2/29

摘要文本

本发明涉及数据检索技术领域,并具体公开了一种基于知识图谱的非结构化数据检索方法及系统,其方法包括:对非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据;基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据;基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量;基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱;基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果;用以提高非结构化数据的检索精度和效率。 数据由马 克 团 队整理

专利详细信息

项目 内容
专利名称 一种基于知识图谱的非结构化数据检索方法及系统
专利类型 发明申请
申请号 CN202410224168.4
申请日 2024/2/29
公告号 CN117807191A
公开日 2024/4/2
IPC主分类号 G06F16/33
权利人 船舶信息研究中心(中国船舶集团有限公司第七一四研究所)
发明人 蔡磊; 孟宪波; 韩冬梅; 尹凡; 王岚; 耿威; 张鹏龙
地址 北京市朝阳区科荟路55号中船信息大厦

专利主权项内容

数据由马 克 团 队整理 1.一种基于知识图谱的非结构化数据检索方法,其特征在于,包括:S1:对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据;S2:基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据;S3:基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量;S4:基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱;S5:基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果。