← 返回列表

基于结构化模型的习题抽取方法、系统、设备和介质

申请号: CN202311555222.5
申请人: 北京汉仪创新科技股份有限公司; 上海驿创信息技术有限公司
申请日期: 2023/11/21

摘要文本

本公开涉及基于结构化模型的习题抽取方法、系统、设备和介质,所述方法包括如下步骤:获取用户输入的习题图像,对用户输入的习题图像进行目标检测,检测出文本内容、图表内容和排版区域;对检测出的文本内容进行识别得到文本识别结果,将文本识别结果与所述检测出的排版区域相结合,根据排版规律进行文章拼接;将拼接完的文章与所述图表内容送入结构化模型中,通过结构化模型分析抓取习题内容,并对习题内容进行结构化处理得到习题精细结构化结果。本公开针对不同的题型定义了不同的输出格式,并在结构化模型的输出中定义每个题型的属性,保证了输出结果的结构化精细程度,同时提高了习题抽取的效率与准确性。

专利详细信息

项目 内容
专利名称 基于结构化模型的习题抽取方法、系统、设备和介质
专利类型 发明申请
申请号 CN202311555222.5
申请日 2023/11/21
公告号 CN117648453A
公开日 2024/3/5
IPC主分类号 G06F16/535
权利人 北京汉仪创新科技股份有限公司; 上海驿创信息技术有限公司
发明人 夏天
地址 北京市海淀区翠微路2号院五区2号楼二层201; 上海市虹口区广纪路838号B幢616

专利主权项内容

1.基于结构化模型的习题抽取方法,其特征在于,包括如下步骤:获取用户输入的习题图像,对用户输入的习题图像进行目标检测,检测出文本内容、图表内容和排版区域,所述文本内容包括如下类型中的至少一种:文本或公式;所述图表内容包括如下类型中的至少一种:图片、表格或二维码;对检测出的文本内容进行识别得到文本识别结果,将文本识别结果与所述检测出的排版区域相结合,根据排版规律进行文章拼接;将拼接完的文章与所述图表内容送入结构化模型中,通过结构化模型分析抓取习题内容,并对习题内容进行结构化处理得到习题精细结构化结果。