← 返回列表

一种多语言多模态多分支文档视觉信息抽取方法

申请号: CN202410033225.0
申请人: 华南理工大学
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 一种多语言多模态多分支文档视觉信息抽取方法
专利类型 发明申请
申请号 CN202410033225.0
申请日 2024/1/10
公告号 CN117542063A
公开日 2024/2/9
IPC主分类号 G06V30/19
权利人 华南理工大学
发明人 汪嘉鹏; 林泽柠; 金连文
地址 广东省广州市天河区五山路381号

摘要文本

本发明公开了一种多语言多模态多分支文档视觉信息抽取方法,本发明属于模式识别与人工智能领域,包括:获取若干种语言的文档图像,对所述文档图像进行检测识别,得到文本检测识别结果;对所述文本检测识别结果进行排序,得到已排序检测识别结果;对所述已排序检测识别结果和所述文档图像进行特征提取,得到多模态特征,将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练;基于预训练好的多模态特征,分别进行实体类别预测、实体链接预测,以实现文档视觉信息的抽取。本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能,显著超越同类具有竞争力的其他现有方法。 更多数据:

专利主权项内容

1.一种多语言多模态多分支文档视觉信息抽取方法,其特征在于,包括:获取若干种语言的文档图像,对所述文档图像进行检测识别,得到文本检测识别结果;对所述文本检测识别结果进行排序,得到已排序检测识别结果;对所述已排序检测识别结果和所述文档图像进行特征提取,得到多模态特征;将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练,得到预训练好的多模态特征;分别对预训练好的多模态特征进行实体类别预测、实体链接预测,以实现文档视觉信息的抽取。