← 返回列表

PDF文档可导航目录提取方法、装置、电子设备及存储介质

申请号: CN202311852456.6
申请人: 浙江华东工程数字技术有限公司; 中国电建集团华东勘测设计研究院有限公司
申请日期: 2023/12/29

摘要文本

为实现可导航的PDF文档的目录提取,保证目录的准确性,并提供快速跳转功能,本发明提出一种PDF文档可导航目录提取方法、装置、电子设备及存储介质,所述可导航目录提取方法采用如下步骤:查找PDF文档的目录页面;对目录所在页面进行目录标题和目录页码提取;将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;对所有页面图片的页码进行识别;基于页码差对图片页码进行的二次校验和修正;将目录项与导航页码进行匹配与关联,获得所有目录标题、目录页码、导航页码;输出可导航的PDF文档目录。采用本发明技术方案可提升PDF文档目录识别准确率,帮助用户快速定位PDF文档目录内容。。马 克 数 据 网

专利详细信息

项目 内容
专利名称 PDF文档可导航目录提取方法、装置、电子设备及存储介质
专利类型 发明申请
申请号 CN202311852456.6
申请日 2023/12/29
公告号 CN117493712A
公开日 2024/2/2
IPC主分类号 G06F16/954
权利人 浙江华东工程数字技术有限公司; 中国电建集团华东勘测设计研究院有限公司
发明人 邓新星; 程斯静; 顾丹鹏; 谢世超; 邬远祥; 唐海涛
地址 浙江省杭州市余杭区余杭街道文一西路1818-2号9幢301室; 浙江省杭州市潮王路22号

专利主权项内容

1.一种PDF文档可导航目录提取方法,其特征在于包括如下步骤:S101、查找PDF文档的目录页面;S102、对目录所在页面进行目录标题和目录页码提取;S103、将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;S104、对所有页面图片的页码进行识别;S105、基于页码差对图片页码进行的二次校验和修正;S106、将目录项与导航页码进行匹配与关联,获得所有目录标题、目录页码、导航页码;S107、输出可导航的PDF文档目录。