← 返回列表
PDF文档可导航目录提取方法、装置、电子设备及存储介质
摘要文本
为实现可导航的PDF文档的目录提取,保证目录的准确性,并提供快速跳转功能,本发明提出一种PDF文档可导航目录提取方法、装置、电子设备及存储介质,所述可导航目录提取方法采用如下步骤:查找PDF文档的目录页面;对目录所在页面进行目录标题和目录页码提取;将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;对所有页面图片的页码进行识别;基于页码差对图片页码进行的二次校验和修正;将目录项与导航页码进行匹配与关联,获得所有目录标题、目录页码、导航页码;输出可导航的PDF文档目录。采用本发明技术方案可提升PDF文档目录识别准确率,帮助用户快速定位PDF文档目录内容。。马 克 数 据 网
申请人信息
- 申请人:浙江华东工程数字技术有限公司; 中国电建集团华东勘测设计研究院有限公司
- 申请人地址:311106 浙江省杭州市余杭区余杭街道文一西路1818-2号9幢301室
- 发明人: 浙江华东工程数字技术有限公司; 中国电建集团华东勘测设计研究院有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | PDF文档可导航目录提取方法、装置、电子设备及存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311852456.6 |
| 申请日 | 2023/12/29 |
| 公告号 | CN117493712A |
| 公开日 | 2024/2/2 |
| IPC主分类号 | G06F16/954 |
| 权利人 | 浙江华东工程数字技术有限公司; 中国电建集团华东勘测设计研究院有限公司 |
| 发明人 | 邓新星; 程斯静; 顾丹鹏; 谢世超; 邬远祥; 唐海涛 |
| 地址 | 浙江省杭州市余杭区余杭街道文一西路1818-2号9幢301室; 浙江省杭州市潮王路22号 |
专利主权项内容
1.一种PDF文档可导航目录提取方法,其特征在于包括如下步骤:S101、查找PDF文档的目录页面;S102、对目录所在页面进行目录标题和目录页码提取;S103、将PDF文档的每页转换成图片,按照页面顺序对所有图片排序,提取图片序号作为该页面的导航页码;S104、对所有页面图片的页码进行识别;S105、基于页码差对图片页码进行的二次校验和修正;S106、将目录项与导航页码进行匹配与关联,获得所有目录标题、目录页码、导航页码;S107、输出可导航的PDF文档目录。