一种表格解析方法及装置
摘要文本
本发明公开了一种表格解析方法及装置,获取待解析文书,将所述待解析文书进行文本编码处理,得到待解析文本,生成与所述待解析文本对应的树型结构,确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系,基于所述相对位置关系,确定所述待解析项对应的解析值。通过本发明实施例,可以在得到树型结构后,直接输入待解析项,即可以得到解析值,不需要人工解析,减少了人力。 (来源 马克数据网)
申请人信息
- 申请人:北京国双科技有限公司
- 申请人地址:100083 北京市海淀区北四环中路229号海泰大厦4层南401号
- 发明人: 北京国双科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种表格解析方法及装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN201811162749.0 |
| 申请日 | 2018年9月30日 |
| 公告号 | CN110968990B |
| 公开日 | 2024年2月13日 |
| IPC主分类号 | G06F40/126 |
| 权利人 | 北京国双科技有限公司 |
| 发明人 | 李国文 |
| 地址 | 北京市海淀区北四环中路229号海泰大厦4层南401号 |
专利主权项内容
马 克 数 据 网 1.一种表格解析方法,其特征在于,包括:获取待解析文书;其中,所述待解析文书包括至少一个表格;将所述待解析文书进行文本编码处理,得到待解析文本;生成与所述待解析文本对应的树型结构;其中,所述树型结构表征所述待解析文本的文本结构;确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系;基于所述相对位置关系,确定所述待解析项对应的解析值;其中,确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系,包括:获取关键字组;所述关键字组包括多个预设关键字;采用正则表达式规则,在所述树型结构中查找每一预设关键字所在的位置;根据所述关键字组中的至少一个关键字确定待解析项;确定所述待解析项所在的待解析表格;若位于所述待解析表格中的多个预设关键字所在的文本节点对应的行节点相同,则所述文本相对位置关系为行关系;若位于所述待解析表格中的多个预设关键字所在的文本节点对应的列节点相同,则所述文本相对位置关系为列关系;其中,基于所述相对位置关系,确定所述待解析项对应的解析值,包括:若所述相对位置关系为行关系,将所述树型结构中行节点的索引号、列节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解析值;若所述相对位置关系为列关系,将所述树型结构中列节点的索引号、行节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解析值。