← 返回列表

一种用于接打电话识别的深度学习网络模型及系统

申请号: CN201810765537.5
申请人: 天津艾思科尔科技有限公司
申请日期: 2018年7月12日

摘要文本

本发明提出一种用于接打电话识别的深度学习网络模型,网络模型的原型为VGG16网络,优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半,并将原VGG16网络中第三层全连接层替换为融合检测网络。所述融合检测网络包括5个检测单元,每个检测单元包括两层卷积层。所述检测单元确定特征提取时所需的预选框尺寸的范围,由K‑means聚类算法统计得到。基于此网络模型提出一种基于深度学习的接打电话识别系统,包括视频输入模块、图像预处理模块、接打电话识别模块、报警模块和数据存储模块。与现有技术相比,本发明提出的深度学习网络中特征提取网络层的学习更充分。所述识别系统在保证准确率的同时,降低内存的占用率。

专利详细信息

项目 内容
专利名称 一种用于接打电话识别的深度学习网络模型及系统
专利类型 发明授权
申请号 CN201810765537.5
申请日 2018年7月12日
公告号 CN108985222B
公开日 2024年2月20日
IPC主分类号 G06V40/10
权利人 天津艾思科尔科技有限公司
发明人 张德馨; 史玉坤
地址 天津市滨海新区经济技术开发区黄海路276号泰达中小企业园2号楼307号房屋

专利主权项内容

1.一种用于接打电话识别的深度学习网络模型,网络模型的原型为VGG16网络,其特征在于,优化后的网络的建立方法为将原VGG16网络中前10层卷积层中的卷积核个数减半,并将原VGG16网络中第三层全连接层替换为融合检测网络;所述融合检测网络包括5个检测单元,每个检测单元包括两层卷积层;所述检测单元确定特征提取时所需的预选框尺寸的范围,由K-means聚类算法统计得到;所述预选框尺寸范围的确定方法为:用K-means聚类算法统计标记好的样本的尺寸,从统计结果中由大到小依次选取x5、x4、x3、x2、x1,其中x5为统计结果中的最大值,第一检测单元预选框尺寸的范围为0.8*x1~x1;第二检测单元预选框尺寸的范围为x1~x2;第三检测单元预选框尺寸的范围为x2~x3;第四检测单元预选框尺寸的范围为x3~x4;第五检测单元预选框尺寸的范围为x4~x5;所述优化后的网络的输入为:经过图像增强的图像集,图像增强包括修改原始图像集的色度、亮度、饱和度和对比度。