基于结构化模型的习题抽取方法、系统、设备和介质

申请号: CN202311555222.5

申请人: 北京汉仪创新科技股份有限公司; 上海驿创信息技术有限公司

申请日期: 2023/11/21

摘要文本

本公开涉及基于结构化模型的习题抽取方法、系统、设备和介质，所述方法包括如下步骤：获取用户输入的习题图像，对用户输入的习题图像进行目标检测，检测出文本内容、图表内容和排版区域；对检测出的文本内容进行识别得到文本识别结果，将文本识别结果与所述检测出的排版区域相结合，根据排版规律进行文章拼接；将拼接完的文章与所述图表内容送入结构化模型中，通过结构化模型分析抓取习题内容，并对习题内容进行结构化处理得到习题精细结构化结果。本公开针对不同的题型定义了不同的输出格式，并在结构化模型的输出中定义每个题型的属性，保证了输出结果的结构化精细程度，同时提高了习题抽取的效率与准确性。

申请人信息

申请人:北京汉仪创新科技股份有限公司; 上海驿创信息技术有限公司
申请人地址:100089 北京市海淀区翠微路2号院五区2号楼二层201
发明人: 北京汉仪创新科技股份有限公司; 上海驿创信息技术有限公司

专利详细信息

项目	内容
专利名称	基于结构化模型的习题抽取方法、系统、设备和介质
专利类型	发明申请
申请号	CN202311555222.5
申请日	2023/11/21
公告号	CN117648453A
公开日	2024/3/5
IPC主分类号	G06F16/535
权利人	北京汉仪创新科技股份有限公司; 上海驿创信息技术有限公司
发明人	夏天
地址	北京市海淀区翠微路2号院五区2号楼二层201; 上海市虹口区广纪路838号B幢616

专利主权项内容

1.基于结构化模型的习题抽取方法，其特征在于，包括如下步骤：获取用户输入的习题图像，对用户输入的习题图像进行目标检测，检测出文本内容、图表内容和排版区域，所述文本内容包括如下类型中的至少一种：文本或公式；所述图表内容包括如下类型中的至少一种：图片、表格或二维码；对检测出的文本内容进行识别得到文本识别结果，将文本识别结果与所述检测出的排版区域相结合，根据排版规律进行文章拼接；将拼接完的文章与所述图表内容送入结构化模型中，通过结构化模型分析抓取习题内容，并对习题内容进行结构化处理得到习题精细结构化结果。

基于结构化模型的习题抽取方法、系统、设备和介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

基于结构化模型的习题抽取方法、系统、设备和介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种高频变压器串并联倍流输出的整流电路

沙发(HSN-6053)

时延对齐方法及装置

一种高脱色竹制活性碳及其制备工艺

床(HSN-B016)

座椅部件(GF-82733H)

热门技术领域

快速入口

专利技术资料

特别鸣谢