一种多语言多模态多分支文档视觉信息抽取方法

申请号: CN202410033225.0

申请人: 华南理工大学

更新日期: 2026-03-17

摘要文本

华南理工大学取得“一种透气窗帘布”专利技术，本发明公开了一种多语言多模态多分支文档视觉信息抽取方法，本发明属于模式识别与人工智能领域，包括：获取若干种语言的文档图像，对所述文档图像进行检测识别，得到文本检测识别结果；对所述文本检测识别结果进行排序，得到已排序检测识别结果；对所述已排序检测识别结果和所述文档图像进行特征提取，得到多模态特征，将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练；基于预训练好的多模态特征，分别进行实体类别预测、实体链接预测，以实现文档视觉信息的抽取。本发明设计的方法在文档视觉信息抽取任务上表现出优异的性能，显著超越同类具有竞争力的其他现有方法。更多数据：

专利主权项内容

1.一种多语言多模态多分支文档视觉信息抽取方法，其特征在于，包括：获取若干种语言的文档图像，对所述文档图像进行检测识别，得到文本检测识别结果；对所述文本检测识别结果进行排序，得到已排序检测识别结果；对所述已排序检测识别结果和所述文档图像进行特征提取，得到多模态特征；将所述多模态特征输入多任务预训练模块内不同的预训练任务中进行预训练，得到预训练好的多模态特征；分别对预训练好的多模态特征进行实体类别预测、实体链接预测，以实现文档视觉信息的抽取。

专利申请信息

项目	内容
专利名称	一种多语言多模态多分支文档视觉信息抽取方法
专利类型	发明申请
申请号	CN202410033225.0
申请日	2024/1/10
公告号	CN117542063A
公开日	2024/2/9
IPC主分类号	G06V30/19
权利人	华南理工大学
发明人	汪嘉鹏; 林泽柠; 金连文
地址	广东省广州市天河区五山路381号

一种多语言多模态多分支文档视觉信息抽取方法

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种多语言多模态多分支文档视觉信息抽取方法

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种用于多自由度获能波浪发电平台的频域数值计算方法

一种基于人工智能的企业数据压缩方法及系统

电信号波控制方法、装置及电子设备

消息模板的生成方法、装置、电子设备及存储介质

一种基于电力载波的照明调光装置及其方法

一种液压驱动垃圾库门用液压缸自锁装置

热门技术领域

快速入口

专利技术资料