← 返回列表
一种便携式文档格式文件的结构化解析方法及相关产品
摘要文本
本申请提供了一种便携式文档格式文件的结构化解析方法及相关产品,可应用于数据处理技术领域,该方法包括:提取与便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息;利用训练好的文件智能分析模型确定便携式文档格式文件的页面对应的预设图片格式文件的类型区域;基于页面尺寸信息、文本坐标以及图片坐标,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配,得到第一结构化数据;利用正则表达式和文本坐标,对参考文献和引用语句进行关联映射,得到第二结构化数据;对元数据信息和第二结构化数据进行关联并输出。如此,利用训练好的文件智能分析模型将文本和图片与类型区域进行匹配关联,从而提高了解析的准确性。
申请人信息
- 申请人:中国医学科学院医学信息研究所
- 申请人地址:100020 北京市朝阳区雅宝路3号
- 发明人: 中国医学科学院医学信息研究所
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种便携式文档格式文件的结构化解析方法及相关产品 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311498326.7 |
| 申请日 | 2023/11/10 |
| 公告号 | CN117473980A |
| 公开日 | 2024/1/30 |
| IPC主分类号 | G06F40/205 |
| 权利人 | 中国医学科学院医学信息研究所 |
| 发明人 | 唐小利; 李晓瑛; 刘宇炀; 杨雪梅; 王超 |
| 地址 | 北京市朝阳区雅宝路3号 |
专利主权项内容
1.一种便携式文档格式文件的结构化解析方法,其特征在于,所述方法包括:对便携式文档格式文件进行解析,提取与所述便携式文档格式文件对应的元数据信息、内容信息以及页面尺寸信息;所述内容信息包括:文本、图片、文本坐标以及图片坐标;利用训练好的文件智能分析模型对所述便携式文档格式文件的页面对应的预设图片格式文件进行版面分析,确定所述预设图片格式文件的类型区域;基于所述页面尺寸信息、所述文本坐标以及所述图片坐标,利用所述训练好的文件智能分析模型将所述文本和所述图片与所述类型区域进行匹配,得到第一结构化数据;基于所述第一结构化数据,利用正则表达式和所述文本坐标,对参考文献和引用语句进行关联映射,得到第二结构化数据;对所述元数据信息和所述第二结构化数据进行关联并输出,实现对所述便携式文档格式文件的结构化解析。