← 返回列表

面向多模态文献数据的分布式存储方法、装置和设备

申请号: CN202311336096.4
申请人: 之江实验室
申请日期: 2023/10/16

摘要文本

本申请涉及数据处理领域,特别是涉及一种面向多模态文献数据的分布式存储方法、装置和设备。所述方法包括:采集文献全文数据,并存储至分布式文件系统中;提取所述文献全文数据的文献元数据,并存储至结构化数据库中;提取所述文献全文数据中的图像数据,及提取所述图像数据的图像元数据,并将所述图像数据存储至分布式文件系统,将所述图像元数据存储至结构化数据库中;基于所述文献元数据及图像元数据,构建知识图谱,并存储至分布式图数据库中;基于所述分布式文件系统、所述结构化数据库及所述分布式图数据库,构建得到分布式存储系统。本发明能够整合文献全文数据,有利于文献全文数据的利用和管理,同时方便各模态文献数据的检索查询。

专利详细信息

项目 内容
专利名称 面向多模态文献数据的分布式存储方法、装置和设备
专利类型 发明授权
申请号 CN202311336096.4
申请日 2023/10/16
公告号 CN117076495B
公开日 2024/2/13
IPC主分类号 G06F16/2453
权利人 之江实验室
发明人 陆矜菁; 严笑然; 厉燕; 刘洋; 陈一家; 侯炜华
地址 浙江省杭州市余杭区中泰街道科创大道之江实验室

专利主权项内容

1.一种面向多模态文献数据的分布式存储方法,其特征在于,所述方法包括:采集文献全文数据,并存储至分布式文件系统中;提取所述文献全文数据的全文元数据;及提取所述文献全文数据的引文元数据并输出引用关系数据;合并所述全文元数据和所述引文元数据得到文献元数据,并将所述文献元数据及所述引用关系数据分别存储至结构化数据库中;提取所述文献全文数据中的图像数据,及提取所述图像数据的图像元数据,并将所述图像数据存储至分布式文件系统,将所述图像元数据存储至结构化数据库中;基于所述文献元数据及图像元数据,构建知识图谱,并存储至分布式图数据库中;基于所述分布式文件系统、所述结构化数据库及所述分布式图数据库,构建得到分布式存储系统;其中,所述提取所述文献全文数据的引文元数据并输出引用关系数据包括:提取所述文献全文数据的初始引文元数据,及标注引用该文献全文数据的第一标识符;对所述初始引文元数据进行标准化处理,并设定被引用的文献全文数据的第二标识符,得到引用关系数据;删除引用该文献全文数据的第一标识符,并根据第二标识符去重获得所述引文元数据。。来自马-克-数-据