← 返回列表

一种面向PDF文档的表格数据抽取方法及装置

申请号: CN202311786233.4
申请人: 浙江大学; 物产中大数字科技有限公司
申请日期: 2023/12/25

摘要文本

本说明书实施例提供一种面向PDF文档的表格数据抽取方法及装置,在抽取方法中,在从PDF文档中解析得到初始表格之后,先针对该初始表格所在页对应的文本列表进行切分,得到文本二维列表。之后,基于该初始表格的行列数和文本二维列表的列数,确定该初始表格的表格类别。最后,基于确定的表格类别和上述的文本列表,对该初始表格进行重构,得到重构表格作为从PDF文档中抽取的表格数据。由此可以大大提升表格数据的抽取效率和准确性。

专利详细信息

项目 内容
专利名称 一种面向PDF文档的表格数据抽取方法及装置
专利类型 发明授权
申请号 CN202311786233.4
申请日 2023/12/25
公告号 CN117454851B
公开日 2024/3/12
IPC主分类号 G06F40/157
权利人 浙江大学; 物产中大数字科技有限公司
发明人 朱海洋; 陈为; 储诚灿; 胡健; 谈旭炜; 应石磊; 苏轶; 王牡丹; 潘奇豪; 朱凌军; 沈萍平
地址 浙江省杭州市西湖区余杭塘路866号; 浙江省杭州市环城西路56号402室

专利主权项内容

(macrodatas.cn) (来 自 马 克 数 据 网) 1.一种面向PDF文档的表格数据抽取方法,包括:对PDF文档进行解析,得到其中包含的初始表格和多页文本内容;将所述多页文本内容转换为对应的各个文本列表,单个文本列表包括多行文本;从所述各个文本列表中,选取所述初始表格所在页对应的目标文本列表;按照预设符号,对所述目标文本列表进行切分,得到文本二维列表;根据所述初始表格的第一行数和第一列数,以及所述文本二维列表的第二列数,确定所述初始表格的表格类别;所述确定所述初始表格的表格类别包括,若所述第一行数小于预设行数,且所述第一列数和所述第二列数相等,则确定所述表格类别为三线表;若所述第二列数与所述第一列数的差值等于预设列数,则确定所述表格类别为边框缺失表;若所述第二列数与所述第一列数的差值大于预设列数,则确定所述表格类别为颜色阶梯表;根据确定的表格类别,对所述初始表格进行重构,得到重构表格;将所述重构表格确定为从所述PDF文档中抽取的表格数据;所述对所述初始表格进行重构,包括:在所述表格类别为三线表或颜色阶梯表的情况下,针对所述初始表格在所述目标文本列表中的对应区域的每一行,按照空格对其进行切分,并通过对切分得到的若干一维列表进行聚类,确定出目标列数,以及将所述初始表格中的内容对应填入具有所述目标列数和所述对应区域所含行数的表格中,得到所述重构表格;在所述表格类别为边框缺失表的情况下,补齐所述初始表格的左右两列,并用None填充补齐列后的初始表格中的缺失内容,得到对应的重构表格。