← 返回列表

一种基于深度学习技术的机构文档识别方法

申请号: CN202311741010.6
申请人: 南京江北新区生物医药公共服务平台有限公司
申请日期: 2023/12/18

摘要文本

本发明公开了一种基于深度学习技术的机构文档识别方法,包括如下步骤:(1)根据不同机构文档类型,采集机构文档图像,进行标准化与版面划分,筛选并裁剪出表格主体区域,得到相应的机构文档图片集;(2)对机构文档图片集逐个进行单元格定位与分割;(3)基于循环卷积神经网络算法,构建中英文文字识别模型,对分割出的图像进行文字识别;(4)对识别的图像文本进行键值对对齐与文本校正操作;(5)使用Flask框架,在步骤(1)、(2)、(3)、(4)组成的机构文档识别模型的基础上对接Web管理平台。本发明能够将海关报关单、医院检查检验报告等机构文档智能地识别为结构化文本,助力跨境贸易、健康医疗等行业自动化效率提升。

专利详细信息

项目 内容
专利名称 一种基于深度学习技术的机构文档识别方法
专利类型 发明申请
申请号 CN202311741010.6
申请日 2023/12/18
公告号 CN117423117A
公开日 2024/1/19
IPC主分类号 G06V30/19
权利人 南京江北新区生物医药公共服务平台有限公司
发明人 崔秋季; 黄璐; 徐晓岚; 李郭成; 阚苏立
地址 江苏省南京市江北新区龙山南路141号化学之光B栋4、5、6、7层

专利主权项内容

1.一种基于深度学习技术的机构文档识别方法,其特征在于,包括如下步骤:步骤(1):根据不同机构文档类型,采集文档图像并基于计算机视觉技术对机构文档图片进行标准化与版面划分,筛选并裁剪出表格主体区域,得到相应的机构文档图片集;步骤(2):对所述得到的机构文档图片集逐个进行单元格定位与分割,得到对应子图片集;步骤(3):基于循环卷积神经网络算法,构建中英文文字识别模型,对分割的图像进行文字识别;步骤(4):对识别的图像文本进行键值对对齐与文本校正;步骤(5):使用Flask框架,在所述步骤(1)、(2)、(3)、(4)算法与模型组成的机构文档识别模型的基础上加入系统鉴权、接口调用记录管理模块,并对接Web管理平台,批量识别机构文档。