← 返回列表

扫描件中的文本要素抽取方法、装置及存储介质

申请号: CN202311718243.4
申请人: 招商基金管理有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 扫描件中的文本要素抽取方法、装置及存储介质
专利类型 发明申请
申请号 CN202311718243.4
申请日 2023/12/13
公告号 CN117593757A
公开日 2024/2/23
IPC主分类号 G06V30/41
权利人 招商基金管理有限公司
发明人 朱运运; 姚树宇; 何同飞
地址 广东省深圳市福田区深南大道7088号

摘要文本

招商基金管理有限公司取得“一种透气窗帘布”专利技术,本发明公开了一种扫描件中的文本要素抽取方法、装置及存储介质,涉及信息提取技术领域。扫描件中的文本要素抽取方法包括:通过光学字符识别模型识别出待抽取扫描件中的第一文本内容;基于第一文本内容在所述待抽取扫描件中的文本格式,对第一文本内容进行拼接,其中文本格式为文本段落或表格;将拼接后的第一文本内容输入预先训练的要素抽取模型,输出第一文本内容中的至少一个文本要素及各文本要素的位置。本发明公开的文本要素抽取方法、装置及存储介质可降低文本要素抽取的人力投入和开发成本,避免对大量代码进行维护而引入新的问题,可广泛用于各领域的扫描件中文本要素的抽取。。来自专利查询网

专利主权项内容

1.一种扫描件中的文本要素抽取方法,其特征在于,包括:通过光学字符识别模型识别出待抽取扫描件中的第一文本内容;基于所述第一文本内容在所述待抽取扫描件中的文本格式,对所述第一文本内容进行拼接,其中所述文本格式为文本段落或表格;将拼接后的第一文本内容输入预先训练的要素抽取模型,输出所述第一文本内容中的至少一个文本要素及各文本要素的位置;其中,所述要素抽取模型包括T5模型和指针网络层,所述指针网络层与所述T5模型的最后一层输出层连接,所述T5模型的最后一层输出层用于输出所述第一文本内容中的至少一个文本要素,所述指针网络层用于将所述至少一个文本要素作为输入,输出所述第一文本内容中各文本要素的位置。 该数据由<马克数据网>整理