← 返回列表

表格信息处理方法、装置、电子设备及存储介质

申请号: CN202311824952.0
申请人: 杭州恒生聚源信息技术有限公司; 上海恒生聚源数据服务有限公司
申请日期: 2023/12/28

摘要文本

本申请提供了一种表格信息处理方法、装置、电子设备及存储介质,其中,该方法包括:对待处理图片进行检测,得到待处理图片的表格区域以及表格区域的第一表格线集合,对表格区域进行文本检测,得到表格区域内的多个文本以及各文本的文本检测框,并根据各文本检测框与第一表格线集合生成表格区域的第二表格线集合,根据第一表格线集合以及第二表格线集合中各表格线的置信度,对第一表格线集合和第二表格线集合进行剔除处理,得到表格区域的目标表格线集合,基于目标表格线集合以及表格区域内的多个文本重建得到目标表格。可以得到更加准确的表格线描述,并提高表格还原的准确性。

专利详细信息

项目 内容
专利名称 表格信息处理方法、装置、电子设备及存储介质
专利类型 发明申请
申请号 CN202311824952.0
申请日 2023/12/28
公告号 CN117475459A
公开日 2024/1/30
IPC主分类号 G06V30/413
权利人 杭州恒生聚源信息技术有限公司; 上海恒生聚源数据服务有限公司
发明人 李杨; 于业达; 刘奕晨
地址 浙江省杭州市杭州经济技术开发区白杨街道科技园路2号2幢1701-1714室; 上海市浦东新区峨山路91弄61号7楼

专利主权项内容

1.一种表格信息处理方法,其特征在于,包括:对待处理图片进行表格检测,得到所述待处理图片的表格区域以及所述表格区域的第一表格线集合;对所述表格区域进行文本检测,得到所述表格区域内的多个文本以及各文本的文本检测框,并根据各文本检测框与所述第一表格线集合生成所述表格区域的第二表格线集合;根据所述第一表格线集合以及所述第二表格线集合中各表格线的置信度,对所述第一表格线集合和所述第二表格线集合进行剔除处理,得到所述表格区域的目标表格线集合;基于所述目标表格线集合以及所述表格区域内的多个文本重建得到目标表格。