一种基于醉汉模型的轻量化声学场景感知方法
摘要文本
本发明公开了一种基于醉汉模型的轻量化声学场景感知方法,包括:常规音频特征提取:常规音频特征通过特征转换模块处理,得到醉汉特征。常规模型训练。使用常规模型进行通道缩减和添加频率分组融合卷积的操作,以得到醉汉模型的初始版本。使用引导模块得到的初始版本的醉汉模型进行训练。使用常规模型作为教师模型,醉汉模型作为学生模型,通过知识蒸馏的方式来提升学生模型的性能。对融合后的轻量化模型进行评估,得到评估结果。根据评估结果,对轻量化模型进行优化和调整。得到最终的醉汉模型。将常规音频特征输入醉汉模型,得到声学场景感知结果。本发明的优点是:减少训练时间和计算资源的消耗,并且能获得较高的准确率和较低的损失值。
申请人信息
- 申请人:北方工业大学
- 申请人地址:100144 北京市石景山区晋元庄路5号
- 发明人: 北方工业大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于醉汉模型的轻量化声学场景感知方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311505530.7 |
| 申请日 | 2023/11/13 |
| 公告号 | CN117524252A |
| 公开日 | 2024/2/6 |
| IPC主分类号 | G10L25/30 |
| 权利人 | 北方工业大学 |
| 发明人 | 武梦龙; 张琳; 刘文楷; 蔡希昌; 黄明; 张海月 |
| 地址 | 北京市石景山区晋元庄路5号 |
专利主权项内容
1.一种基于醉汉方法论的轻量化声学场景感知方法,其特征在于,包括以下步骤:1)常规音频特征提取:收集原始音频数据,采用对数梅尔频谱和一阶差分以及二阶差分方式将原始音频数据转换为常规音频特征;2)醉汉特征提取:基于Squeeze-and-Excitation(SE)注意力模块,设计了一个基于注意力机制的特征转换模块;常规音频特征通过特征转换模块处理,去除冗余信息后得到醉汉特征;3)常规模型训练:使用常规模型的结构和参数进行训练;通过输入常规音频特征,训练模型并进行场景感知能力学习;4)引导模块操作:使用常规模型进行通道缩减和添加频率分组融合卷积的操作,以得到醉汉模型的初始版本;通过实验和调整,找到最佳的通道数量和分组卷积设置;5)醉汉模型训练:使用引导模块得到的初始版本的醉汉模型进行训练;与常规模型训练类似,输入醉汉特征并对醉汉模型进行训练和优化;6)融合模块操作:使用常规模型作为教师模型,醉汉模型作为学生模型,通过知识蒸馏的方式来提升学生模型的性能;7)评估模型:对融合后的轻量化模型进行评估,检查其在声学场景感知任务上的准确率和性能,得到评估结果;8)模型优化:根据评估结果,对轻量化模型进行优化和调整;得到最终的醉汉模型;9)将常规醉汉特征输入醉汉模型,得到声学场景感知结果。