一种档案OCR图像自适应去噪方法
申请人信息
- 申请人:青岛华正信息技术股份有限公司
- 申请人地址:266000 山东省青岛市市南区香港中路52号时代广场16层C6-23
- 发明人: 青岛华正信息技术股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种档案OCR图像自适应去噪方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311732780.4 |
| 申请日 | 2023/12/18 |
| 公告号 | CN117423113B |
| 公开日 | 2024/3/5 |
| IPC主分类号 | G06V30/164 |
| 权利人 | 青岛华正信息技术股份有限公司 |
| 发明人 | 罗桂富; 宋伟业; 路卫峰; 李剑; 杨芳; 徐延政 |
| 地址 | 山东省青岛市市南区香港中路52号时代广场16层C6-23 |
摘要文本
本发明涉及图像去噪技术领域,本发明公开了一种档案OCR图像自适应去噪方法;包括将档案OCR图像分割成个子区域,采集个子区域的噪声关联数据,生成个噪声强度评估值,判定是否存在噪声区域,对于噪声区域生成噪声级别,根据噪声级别,生成去噪指令,并自适应的选择去噪方式;相对于现有技术,能够将大面积的档案OCR图像分割成多个独立的小面积图像,可以降低单次图像噪声识别的数据计算量,也能够精准的识别到存在噪声的图像区域,并针对噪声区域进行自适应的去噪方式选择,既避免了采用单一去噪方式对档案OCR图像去噪时导致的不匹配,也能够避免对无噪声区域的噪声识别、计算和处理步骤,进而提高去噪效率。 搜索专利查询网
专利主权项内容
1.一种档案OCR图像自适应去噪方法,应用于图像去噪服务器,其特征在于,方法包括:S1:扫描档案文件获得档案OCR图像,基于分割准则,将档案OCR图像分割成个子区域;所述分割准则为:分割后的任意两个相邻子区域的面积差值,均小于等于任意一个子区域面积值的十分之一;
个子区域的分割方法包括:测量档案OCR图像长边的长度值,在档案OCR图像的长边标记个分割点;以个分割点为基点,按照分割准则,沿平行于档案OCR图像的短边方向画线,获得条分割线;以条分割线为边界,将档案OCR图像分割成/>个子区域;对个子区域沿档案OCR图像的长边方向依次进行升序编号;S2:采集个子区域的噪声关联数据,基于/>个噪声关联数据,生成/>个噪声强度评估值;S3:将个噪声强度评估值分别与预设的噪声强度阈值对比分析,判定是否存在噪声区域;若存在,则执行S4-S6;若不存在,则重复执行S3;S4:将个噪声区域的噪声强度评估值分别与预设的第一级别阈值和第二级别阈值对比分析,根据对比结果,生成/>个噪声级别;S5:根据个噪声级别,生成/>个去噪指令,根据/>个去噪指令,自适应的选择去噪方式;S6:在个噪声区域去噪后,将/>个子区域拼接,获得去噪后的档案OCR图像;所述噪声关联数据包括中值像素占比率、峰值波动度、孤立点活跃度和低值像素关联值;中值像素占比率的获取方法包括:在个子区域内分别随机画出/>个不相邻的圆,将圆标记为识别区域;分别统计个识别区域内的像素点数量,通过 OpenCV标记所有像素点的灰度值;将灰度值大于预设的第一灰度阈值和小于第二灰度阈值的像素点记为中值像素点,第一灰度阈值小于第二灰度阈值;将个识别区域内的中值像素点的数量与所有像素点的数量比较,获得/>个子占比率;子占比率的表达式为:
;式中,为第/>个子区域第/>个识别区域的子占比率,/>为第/>个子区域第/>个识别区域的中值像素点的数量,/>为第/>个子区域第/>个识别区域的所有像素点的数量;将个子占比率累加后求平均,获得中值像素占比率;中值像素占比率的表达式为:
;式中,为第/>个子区域的中值像素占比率,/>为第/>个子区域的第/>个子占比率;所述峰值波动度的获取方法包括:分别获取个子区域内的像素点灰度值和像素点数量,以像素点灰度值为横坐标,像素点数量为纵坐标构建灰度直方图;通过累加求均值的方式计算灰度直方图中所有像素点灰度值的灰度平均值;将灰度直方图中像素点灰度值的最大值与灰度平均值作差,获得峰值波动度;峰值波动度的表达式为:
;式中,为第/>个子区域的峰值波动度,/>为第/>个子区域的像素点灰度值的最大值,/>为第/>个子区域的灰度平均值;所述孤立点活跃度的获取方法包括:在个子区域内分别划分/>个大小一致的矩形区域;以矩形区域的中心为基点,分别以矩形区域的二分之一边长和三分之一边长为半径画圆,得到第一活跃区域和第二活跃区域;将第一活跃区域和第二活跃区域之间的区域记为取样区域;在取样区域随机标记个孤立的像素点,并沿顺时针方向依次测量相邻两个孤立的像素点之间的间距,得到/>个孤立间距;将个孤立间距累加后求平均,获得子活跃度;子活跃度的表达式为:
;式中,为第/>个子区域第/>个取样区域的子活跃度,/>为第/>个子区域第/>个取样区域的第/>个孤立间距;去除掉子活跃度的最大值和最小值,将个子活跃度累加后求平均,获得孤立点活跃度;孤立点活跃度的表达式为:
;式中,为第/>个子区域的孤立点活跃度,/>为第/>个子区域的第/>个子活跃度;所述低值像素关联值的获取方法包括:在个子区域内分别标记/>个灰度值小于预设的第一灰度阈值的像素点,记为低值像素点;以个低值像素点所在位置为圆心,以预设长度为半径画圆,得到/>个低值圆;统计个低值圆的关联交叉点的数量,并与低值圆的数量比较,获得低值像素关联值;低值像素关联值的表达式为:
;式中,为第/>个子区域的低值像素关联值,/>为第/>个子区域的关联交叉点的数量,/>为低值圆的数量;噪声强度评估值的表达式为:
;式中,为第/>个子区域的噪声强度评估值,/>、/>、/>、/>为权重因子。。搜索马 克 数 据 网