一种文本检测模型的训练方法、文本检测方法及装置
摘要文本
本申请提出一种文本检测模型的训练方法、文本检测方法及装置,将文本检测模型的训练划分为了两个核心阶段:“预训练阶段”与“联合训练阶段”,其中利用“预训练阶段”对文档中边框的识别结果进行优化,避免文本框检测出现混淆与粘连等情况,进而将“预训练阶段”中的关键单元“文本区域预测分支网络”参与到“联合训练阶段”,从而在降低整体训练资源的同时,实现参数共享,提高“联合训练阶段”模型的收敛速度,使得本申请所示的文本检测模型具备更好的泛化能力。
申请人信息
- 申请人:杭州恒生聚源信息技术有限公司; 上海恒生聚源数据服务有限公司
- 申请人地址:310018 浙江省杭州市杭州经济技术开发区白杨街道科技园路2号2幢1701-1714室
- 发明人: 杭州恒生聚源信息技术有限公司; 上海恒生聚源数据服务有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种文本检测模型的训练方法、文本检测方法及装置 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311735371.X |
| 申请日 | 2023/12/18 |
| 公告号 | CN117423116B |
| 公开日 | 2024/3/22 |
| IPC主分类号 | G06V30/19 |
| 权利人 | 杭州恒生聚源信息技术有限公司; 上海恒生聚源数据服务有限公司 |
| 发明人 | 刘奕晨; 于业达; 丁雪纯; 李杨 |
| 地址 | 浙江省杭州市杭州经济技术开发区白杨街道科技园路2号2幢1701-1714室; 上海市浦东新区峨山路91弄61号7楼 |
专利主权项内容
1.一种文本检测模型的训练方法,其特征在于,所述方法应用模型训练系统,所述模型训练系统包括预训练模型和文本检测模型,所述文本检测模型包括:文本区域预测分支网络、第一特征处理网络、置信度加权网络以及第一预测网络,所述预训练模型包括:第二特征处理网络与第二预测网络;所述第二预测网络包括:待训练文本边框预测分支网络与待训练文本区域预测分支网络;所述方法,包括:将样本数据输入所述第二特征处理网络,获得所述样本数据对应的第二已还原特征图;将所述第二已还原特征图输入所述待训练文本边框预测分支网络,获得所述样本数据对应的文本边框预测特征图;将所述第二已还原特征图输入所述待训练文本区域预测分支网络,获得所述样本数据对应的文本区域预测特征图;根据所述文本边框预测特征图、所述文本区域预测特征图、边框区域掩膜信息以及所述文本区域掩膜信息,确定所述预测损失信息;所述边框区域掩膜信息由所述文本区域掩膜信息获得;所述预测损失信息表征当前预训练周期所述预训练模型的训练结果与真实值的差异;根据每个预训练周期对应的预测损失信息对所述预训练模型中各个网络的参数进行更新,直至第M个预训练周期对应的总预测特征图满足第二训练条件,且所述第M个预训练周期对应的预测损失信息满足收敛状态,则将所述第M个预训练周期对应的待训练文本区域预测分支网络作为所述文本区域预测分支网络;将样本数据输入所述文本区域预测分支网络获得待学习特征图;所述文本区域预测分支网络为通过表征所述样本数据的边框损失与文本区域损失的预测损失信息迭代训练获得的;将所述样本数据输入所述第一特征处理网络获得第一已还原特征图;通过所述置信度加权网络分别为所述待学习特征图与所述第一已还原特征图分配权重参数,进行置信度加权学习以获得已学习特征图;将所述已学习特征图输入所述第一预测网络获得待验证预测结果;根据文本区域掩膜信息、所述待验证预测结果、所述待学习特征图以及所述第一已还原特征图确定总熵损失信息;所述文本区域掩膜信息表征所述样本数据的真实值;所述总熵损失信息表征当前联合训练周期所述文本检测模型的预测结果与真实值的差异;根据每个联合训练周期对应的总交叉熵损失信息对所述文本检测模型中各个网络的参数进行更新,直至第N个联合训练周期对应的待验证预测结果满足第一训练条件,且所述第N个联合训练周期对应的总交叉熵损失信息满足收敛状态,则将所述第N个联合训练周期对应的文本检测模型作为成熟的文本检测模型。 来自:www.macrodatas.cn