← 返回列表

基于深度学习复合模型的环境声音识别方法及装置

申请号: CN202311247442.1
申请人: 珠海高凌信息科技股份有限公司
申请日期: 2023/9/25

摘要文本

本发明提出了一种基于深度学习复合模型的环境声音识别方法及装置,该方法包括:获取环境音频,对环境音频进行特征提取得到环境音频特征,将环境音频特征输入预先训练好的复合模型,复合模型包括多个网络结构不同的通用模型;通过通用模型识别出各个类别标签对应的通用识别置信度;基于通用模型的模型权值和通用识别置信度,确定各个类别标签的目标加权置信度作为通用模型的分类输出结果;根据目标加权置信度的均值得到复合模型的输出结果。根据本发明实施例的技术方案,能够通过多个不同网络结构的通用模型对环境音频识别的置信度进行加权融合,能够降低分类识别的过拟合风险,增强泛化能力,能够在长期使用场景下维持对环境音频识别的准确性。。数据由马 克 团 队整理

专利详细信息

项目 内容
专利名称 基于深度学习复合模型的环境声音识别方法及装置
专利类型 发明申请
申请号 CN202311247442.1
申请日 2023/9/25
公告号 CN117351995A
公开日 2024/1/5
IPC主分类号 G10L25/30
权利人 珠海高凌信息科技股份有限公司
发明人 姜拓; 赵丽静; 于宁; 钟杰华; 陈达峰; 吴翠敏; 母健康; 曾二芳; 彭小芳; 曾洪生; 宋卫华; 徐从文; 陶亚南
地址 广东省珠海市南屏科技工业园屏东一路1号

专利主权项内容

1.一种基于深度学习复合模型的环境声音识别方法,其特征在于,包括:获取环境音频,对环境音频进行特征提取得到环境音频特征,将环境音频特征输入预先训练好的复合模型,其中,复合模型包括多个训练好的通用模型,通用模型为DCNN网络模型,每个通用模型的网络结构不同,通用模型预设有多个类别标签,通用模型预设有模型权值;遍历复合模型,通过各个通用模型对环境音频特征分别进行分类识别,得到各个通用模型的分类识别结果,分类识别结果包括各个类别标签对应的通用识别置信度;基于通用模型的模型权值和通用识别置信度,确定各个类别标签的目标加权置信度,将目标加权置信度确定为通用模型的分类输出结果;根据全部的分类输出结果确定复合模型的复合识别结果,其中,复合识别结果包括各个类别标签的复合置信度,复合置信度为类别标签所对应的全部的目标加权置信度的均值。