文档信息解析方法、装置、计算机设备、存储介质
摘要文本
本公开涉及一种文档信息解析方法、装置、计算机设备、存储介质。所述方法包括:获取待解析文档,确定待解析文档中文档内容格式信息;基于文档内容格式信息和预先构建的版面识别模型,确定待解析文档中的格式区域以及每个格式区域对应的格式类别;对格式区域和所述内容信息所对应的位置信息进行交集计算,得到交集计算的结果;基于交集计算的结果将格式区域与待解析文档中内容信息进行匹配,并利用每个格式区域对应的格式类别以及所述内容信息所对应的位置信息对匹配的结果进行调整,得到待解析文档的解析结果。采用本方法能够适应不同类型的PDF的版面结构,并且准确的识别出PDF的解析结果。
申请人信息
- 申请人:企查查科技股份有限公司
- 申请人地址:215000 江苏省苏州市苏州工业园区科创东区东石泾港路2号润港产业园6号楼10层1001室11工位(集群登记)
- 发明人: 企查查科技股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 文档信息解析方法、装置、计算机设备、存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311337972.5 |
| 申请日 | 2023/10/17 |
| 公告号 | CN117095422B |
| 公开日 | 2024/2/9 |
| IPC主分类号 | G06V30/42 |
| 权利人 | 企查查科技股份有限公司 |
| 发明人 | 熊玉竹; 周红林; 柴玉倩 |
| 地址 | 江苏省苏州市苏州工业园区科创东区东石泾港路2号润港产业园6号楼10层1001室11工位(集群登记) |
专利主权项内容
1.一种文档信息解析方法,其特征在于,所述方法包括:获取待解析文档,确定所述待解析文档中文档内容格式信息;所述文档内容格式信息至少包括:待解析文档中内容信息和内容信息所对应的位置信息;基于所述文档内容格式信息和预先构建的版面识别模型,确定所述待解析文档中的格式区域以及每个格式区域对应的格式类别,所述版面识别模型是基于训练文档中的标注得到的标注数据集训练识别模型得到的;对所述格式区域和所述内容信息所对应的位置信息进行交集计算,得到交集计算的结果;基于所述交集计算的结果将所述格式区域与所述待解析文档中内容信息进行匹配,并利用每个格式区域对应的格式类别以及所述内容信息所对应的位置信息对匹配的结果进行调整,得到所述待解析文档的解析结果;所述基于所述交集计算的结果将所述格式区域与待解析文档中内容信息进行匹配,并利用每个格式区域对应的格式类别以及所述内容信息所对应的位置信息对匹配的结果进行调整,得到所述待解析文档的解析结果,包括:响应于所述交集计算的结果满足预设的交集阈值,将所述格式区域与待解析文档中内容信息进行匹配,得到匹配的结果;基于所述格式区域的格式类型和所述内容信息所对应的位置信息对所述匹配的结果进行调整,得到所述待解析文档的解析结果;所述基于所述格式区域的格式类型和所述内容信息所对应的位置信息对所述匹配的结果进行调整,得到所述待解析文档的解析结果,包括:基于所述格式区域的格式类型和确定所述匹配的结果在待解析文档中的类型;基于所述内容信息所对应的位置信息,调整所述匹配的结果中内容信息的排列顺序,以及调整所述匹配的结果的排列顺序;基于匹配的结果在待解析文档中的类型、调整后的匹配的结果,得到所述待解析文档的解析结果。 更多数据:搜索马克数据网来源: