← 返回列表

一种异构数据智能清洗方法与系统

申请号: CN202410110116.4
申请人: 中国人民解放军军事科学院系统工程研究院
申请日期: 2024/1/26

摘要文本

本发明提出一种异构数据智能清洗方法与系统,属于数据处理技术领域。所述方法基于异构数据清洗系统对异构数据进行清洗来提取异构数据的有效信息和关联信息,从而构建开源组件的知识图。调用模板管理模块,获取用于进行数据提取的定制化模板。调用信息提取模块,利用定制化模板从异构数据中提取出数据结构化信息,并基于数据结构化信息生成实体树和元信息,元信息作为有效信息。调用信息关联模块,从异构信息中提取出关联信息以形成证据树,基于证据树和实体树构建开源组件的知识图。调用持久化模块,将元信息存储至Mysql数据库,将开源组件的知识图形成graphSql文件并存储至Neo4j数据库。

专利详细信息

项目 内容
专利名称 一种异构数据智能清洗方法与系统
专利类型 发明申请
申请号 CN202410110116.4
申请日 2024/1/26
公告号 CN117688308A
公开日 2024/3/12
IPC主分类号 G06F18/10
权利人 中国人民解放军军事科学院系统工程研究院
发明人 郭振; 宋超; 唐乐乐; 张梅; 李静姝; 王士强
地址 北京市丰台区大成路13号

专利主权项内容

1.一种异构数据智能清洗方法,其特征在于:所述方法基于异构数据清洗系统对异构数据进行清洗来提取所述异构数据的有效信息和关联信息,从而构建开源组件的知识图;所述异构数据清洗系统包括模板管理模块、信息提取模块、信息关联模块和持久化模块;所述方法具体包括:步骤S1、调用所述模板管理模块,获取用于进行数据提取的基础模板,根据异构数据的数据源类型调整所述基础模板,得到所述异构数据的定制化模板;步骤S2、调用所述信息提取模块,利用所述定制化模板从所述异构数据中提取出数据结构化信息,并基于所述数据结构化信息生成实体树和元信息,所述元信息作为所述有效信息;步骤S3、调用所述信息关联模块,从所述异构数据中提取出所述关联信息以形成证据树,基于所述证据树和所述实体树构建所述开源组件的知识图;步骤S4、调用所述持久化模块,将所述元信息存储至Mysql数据库,将所述开源组件的知识图形成graphSql文件并存储至Neo4j数据库;其中,所述异构数据包括所述开源组件的组件信息、漏洞信息和版本信息。