一种用于接打电话识别的深度学习网络模型及系统
摘要文本
本发明提出一种用于接打电话识别的深度学习网络模型,网络模型的原型为VGG16网络,优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半,并将原VGG16网络中第三层全连接层替换为融合检测网络。所述融合检测网络包括5个检测单元,每个检测单元包括两层卷积层。所述检测单元确定特征提取时所需的预选框尺寸的范围,由K‑means聚类算法统计得到。基于此网络模型提出一种基于深度学习的接打电话识别系统,包括视频输入模块、图像预处理模块、接打电话识别模块、报警模块和数据存储模块。与现有技术相比,本发明提出的深度学习网络中特征提取网络层的学习更充分。所述识别系统在保证准确率的同时,降低内存的占用率。
申请人信息
- 申请人:天津艾思科尔科技有限公司
- 申请人地址:300457 天津市滨海新区经济技术开发区黄海路276号泰达中小企业园2号楼307号房屋
- 发明人: 天津艾思科尔科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种用于接打电话识别的深度学习网络模型及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN201810765537.5 |
| 申请日 | 2018年7月12日 |
| 公告号 | CN108985222B |
| 公开日 | 2024年2月20日 |
| IPC主分类号 | G06V40/10 |
| 权利人 | 天津艾思科尔科技有限公司 |
| 发明人 | 张德馨; 史玉坤 |
| 地址 | 天津市滨海新区经济技术开发区黄海路276号泰达中小企业园2号楼307号房屋 |
专利主权项内容
1.一种用于接打电话识别的深度学习网络模型,网络模型的原型为VGG16网络,其特征在于,优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半,并将原VGG16网络中第三层全连接层替换为融合检测网络;所述融合检测网络包括5个检测单元,每个检测单元包括两层卷积层;所述检测单元确定特征提取时所需的预选框尺寸的范围,由K-means聚类算法统计得到;所述预选框尺寸范围的确定方法为:用K-means聚类算法统计标记好的样本的尺寸,从统计结果中由大到小依次选取x5、x4、x3、x2、x1,其中x5为统计结果中的最大值,第一检测单元预选框尺寸的范围为0.8*x1~x1;第二检测单元预选框尺寸的范围为x1~x2;第三检测单元预选框尺寸的范围为x2~x3;第四检测单元预选框尺寸的范围为x3~x4;第五检测单元预选框尺寸的范围为x4~x5;所述优化后的网络的输入为:经过图像增强的图像集,图像增强包括修改原始图像集的色度、亮度、饱和度和对比度。