← 返回列表

文档信息提取方法、装置、电子设备和存储介质

申请号: CN202311841819.6
申请人: 恒生电子股份有限公司
申请日期: 2023/12/29

摘要文本

微信公众号马克 数据网 。本发明提出一种文档信息提取方法、装置、电子设备和存储介质,涉及智能文档分析技术领域。该方法包括:获取待处理文档图像中各语义实体对应的编码特征向量;获取各语义实体构成的图结构对应的图结构向量;将图结构向量和编码特征向量输入预训练的第一图神经网络,利用第一图神经网络对各语义实体和各语义实体之间的关联关系进行分类,根据分类结果获得待处理文档图像对应的结构化文档信息。通过引入图神经网络同时对各语义实体和各语义实体之间的关联关系进行分类,实现将SER和RE任务的算法模型融合到一起,进而实现端到端的SER+RE任务,不需要依赖于SER任务的结果来完成RE任务,提高了文档信息提取效率。

专利详细信息

项目 内容
专利名称 文档信息提取方法、装置、电子设备和存储介质
专利类型 发明授权
申请号 CN202311841819.6
申请日 2023/12/29
公告号 CN117496542B
公开日 2024/3/15
IPC主分类号 G06V30/41
权利人 恒生电子股份有限公司
发明人 陈奕名; 徐淳波; 林金曙; 陈华华
地址 浙江省杭州市滨江区江南大道3588号恒生大厦11楼

专利主权项内容

1.一种文档信息提取方法,其特征在于,所述方法包括:获取待处理文档图像中各语义实体对应的编码特征向量;所述编码特征向量通过对各所述语义实体对应的向量表示进行编码得到;所述向量表示根据每个所述语义实体对应的语义特征向量和位置特征向量获得;获取各所述语义实体构成的图结构对应的图结构向量;所述图结构向量表征所述图结构中各所述语义实体之间有无关联关系;所述图结构通过在各所述语义实体构成的初始图结构中将实际没有关联关系的两个语义实体连接形成的边删除后获得,所述初始图结构中的各所述语义实体两两互相连接;将所述图结构向量和所述编码特征向量输入预训练的第一图神经网络,利用所述第一图神经网络对各所述语义实体和各所述语义实体之间的关联关系进行分类,得到各所述语义实体的分类结果和各所述语义实体之间的关联关系的第一分类结果;根据各所述语义实体的分类结果和各所述语义实体之间的关联关系的第一分类结果获得所述待处理文档图像对应的结构化文档信息。 (来 自 马 克 数 据 网)