← 返回列表
基于结构化模型的习题抽取方法、系统、设备和介质
摘要文本
本公开涉及基于结构化模型的习题抽取方法、系统、设备和介质,所述方法包括如下步骤:获取用户输入的习题图像,对用户输入的习题图像进行目标检测,检测出文本内容、图表内容和排版区域;对检测出的文本内容进行识别得到文本识别结果,将文本识别结果与所述检测出的排版区域相结合,根据排版规律进行文章拼接;将拼接完的文章与所述图表内容送入结构化模型中,通过结构化模型分析抓取习题内容,并对习题内容进行结构化处理得到习题精细结构化结果。本公开针对不同的题型定义了不同的输出格式,并在结构化模型的输出中定义每个题型的属性,保证了输出结果的结构化精细程度,同时提高了习题抽取的效率与准确性。
申请人信息
- 申请人:北京汉仪创新科技股份有限公司; 上海驿创信息技术有限公司
- 申请人地址:100089 北京市海淀区翠微路2号院五区2号楼二层201
- 发明人: 北京汉仪创新科技股份有限公司; 上海驿创信息技术有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于结构化模型的习题抽取方法、系统、设备和介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311555222.5 |
| 申请日 | 2023/11/21 |
| 公告号 | CN117648453A |
| 公开日 | 2024/3/5 |
| IPC主分类号 | G06F16/535 |
| 权利人 | 北京汉仪创新科技股份有限公司; 上海驿创信息技术有限公司 |
| 发明人 | 夏天 |
| 地址 | 北京市海淀区翠微路2号院五区2号楼二层201; 上海市虹口区广纪路838号B幢616 |
专利主权项内容
1.基于结构化模型的习题抽取方法,其特征在于,包括如下步骤:获取用户输入的习题图像,对用户输入的习题图像进行目标检测,检测出文本内容、图表内容和排版区域,所述文本内容包括如下类型中的至少一种:文本或公式;所述图表内容包括如下类型中的至少一种:图片、表格或二维码;对检测出的文本内容进行识别得到文本识别结果,将文本识别结果与所述检测出的排版区域相结合,根据排版规律进行文章拼接;将拼接完的文章与所述图表内容送入结构化模型中,通过结构化模型分析抓取习题内容,并对习题内容进行结构化处理得到习题精细结构化结果。