← 返回列表

PDF文件中无线表格的还原方法、设备及存储介质

申请号: CN202311738870.4
申请人: 合肥大智慧财汇数据科技有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 PDF文件中无线表格的还原方法、设备及存储介质
专利类型 发明申请
申请号 CN202311738870.4
申请日 2023/12/18
公告号 CN117710997A
公开日 2024/3/15
IPC主分类号 G06V30/412
权利人 合肥大智慧财汇数据科技有限公司
发明人 冯卫强; 张友豪; 朱珊珊; 黄帅
地址 安徽省合肥市蜀山区望江西路99号安高城市广场办2402室

摘要文本

本发明涉及文件预处理技术领域,公开了PDF文件中无线表格的还原方法、设备及存储介质。该方法先获取PDF文件的文本单元集合。基于目标检测算法定位PDF文件图像中的无线表格及少线表格位置,获取页面表格信息集合。根据页面表格信息生成表格文本单元集合。确定表格文本单元集合中的最大列数行,获得表格列边界集合。基于表格列边界补全表格内部的空白单元格,生成表格单元格集合。提取列文本片段的语义特征以获取跨行特征表示。基于跨列单元格坐标位置与表格列边界的比较结果,生成行单元格文本的跨列特征表示,以得到表格单元格的跨行跨列合并特征表示,据此对无线表格进行还原。本发明实现对PDF表格的准确还原。 来自专利查询网

专利主权项内容

1.PDF文件中无线表格的还原方法,其特征在于,包括以下步骤:S1.获取PDF文件的文本单元集合;S2.基于目标检测算法定位PDF文件图像中的无线表格及少线表格位置,从而获取页面表格信息集合;S3.根据页面表格信息划定表格区域内对应的文本单元,从而生成表格文本单元集合;S4.确定表格文本单元集合中的最大列数行,据此获得表格列边界集合;S5.基于表格列边界补全表格内部的空白单元格,生成调整后的表格单元格集合;S6.提取列文本片段的语义特征以获取列文本片段的跨行特征表示;S7.基于跨列单元格坐标位置与表格列边界的比较结果,生成行单元格文本的跨列特征表示,从而结合列文本片段的跨行特征表示以得到表格单元格的跨行跨列合并特征表示;S8.基于表格单元格集合中的文本单元信息以及所述跨行跨列合并特征表示,对无线表格进行还原。。来自: