首页 > 乐器声学 专利正文
一种基于深度学习的声音事件检测和定位方法与流程

时间:2022-01-23 阅读: 作者:专利查询

一种基于深度学习的声音事件检测和定位方法与流程

1.本发明涉及一种基于多尺度空间通道挤压激励模型的声音事件检测和定位方法,属于 音频检测领域。


背景技术:

2.声音事件检测和定位(sound event location and detection,seld)的目标是检测 音频信息包含的声学内容,识别其中的声音事件标签和对应的时间和空间位置。seld通 常用来检测和定位“枪声”和“尖叫声”等异常声音,不仅是对视频或图像检测的补充, 比起视频存储和处理,声音通常消耗更少计算机资源。seld一直是一个研究的热点,已 经在很多领域得到了应用,如:多媒体、交通、医疗保健、安全检测系统等。
3.早期利用隐马尔可夫模型(hidden markov model,hmm)用于检测相对静止的事件。 维特比解码产生声音事件序列,并定位声音事件的开始和偏移时间。利用时间先验和“语 言模型”来排除不太可能的声音时间序列,缺点是不能处理复音序列。heittola等人利 用一种多通道解码,用于复音事件检测,但仍然不能分离重叠声音事件的声学特征。为了 处理声音事件的重叠,研究人员采用了源分离技术,如非负矩阵分解(nonnegative matrixfactorization,nmf)。虽然nmf擅长处理重叠的声音,能独立处理每个帧的频谱,但是 却不能模拟任何时间上下文。李应等人利用多随机森林算法,解决了各种场景下低信噪比 声音事件检测问题。xu、phan等人利用支持向量机(support vector machine,svm)和k
‑ꢀ
近邻算法(k-nearestneighbor,knn)实现对事件的分类,由于数据量和数据集较少,导致 分类效果不高。
4.随着深度学习技术的快速发展,seld也出现了一些基于神经网络的新技术。hertel 等人利用深度学习方法分别比较时域和频域特征对于seld的作用,实验结果显示频域特 征的识别效果更好;kim、adavanne s,等人针对不同的特征提取方法结合不同声道数据的 预处理,能得到更复杂的声音特征。
5.jeong等人利用log-mel和logavg-mel两种特征,有效提高了检测的效果。但是该 模型对于不同种类的声音事件检测效果差异较大。除了讨论特征选择对效果的影响,有些 文献也讨论了不同的网络结构对声音事件检测的影响,
6.phan等人利用带有加权和多任务损失函数的深度神经网络(deep neural networks, dnn)和卷积神经网络(convolutional neural network,cnn),并重点改进了神经网络 的损失函数,用于音频事件检测。cak1r等人采取了卷积循环神经网络(convolutionalrecurrent neural network,crnn),在卷积层和循环层对频域特征进一步提取以及处理 后对其分类。adavanne等人在cnn中加入循环门单元,构建循环神经网络(recurrentneural network,rnn),对log-mel特征经过卷积层后再进一步处理,得到其时间相关性 后,对分类结果进行判断;kong等人提出一种使用门控神经网络方法的crnn模型,在音 频标注、基于片段的声音事件检测(sound event detection,sed)任务中,效果优于基线 系统。hirvonen验证了cnn可同时对声音事件进行检测和定位。adavanne使用卷积
和循 环神经网络对多重事件的到达方向(direction of arrival,doa)估计,具有良好的效果。 y sun等人在利用概率神经网络实现室内环境的doa估计。adavanne基于seldnet实现多 重运动声源的检测和定位。目前,基于深度神经网络的doa估计是实现声源估计的热门研 究。
7.多尺度方法在目标检测、图像识别等领域取得了很大进展。单一尺度卷积提取的特征 是有限的,不能充分提取特征。多尺度方法应用在声音事件检测方面,xu等人通过集成 来自不同时间分辨率的信息,提出多尺度方法用于捕获声音事件的细粒度和粗粒度特征, 并对声音事件的时间依赖关系进行建模。同时包含时域和频域信息的时频图更适合对声音 进行识别和定位,但在弱标签环境下,将整个时频图作为输入,训练集音频中出现的声音 事件占比较小,噪声占比较大,难以提取有效的深层特征。
8.根据上述分析可知,对于声音事件准确的检测和声源的定位仍然是一个很大的挑战。


技术实现要素:

9.针对单一尺度卷积不能充分提取特征,造成全局特征无法准确的检测和定位重叠部分 的声音事件的问题,本发明提供一种多尺度空间通道挤压激励卷积网络和门控循环单元的 声音事件检测和定位方法。
10.本发明的一种基于深度学习的声音事件检测和定位方法,所述方法包括:
11.s1、根据时域声音信号,提取时频域特征;
12.s2、确定训练目标,将得到的时频域表示送入到空间通道挤压激励模型网络中进行训 练,提取特征图中时频域的深层信息;
13.s3、把提取得到的深层信息通过全连接层作为分类任务执行输出声音事件的标签;
14.s4、把提取得到的深层信息通过全连接层作为多输出回归任务执行实现声音的定位;
15.优选的是,所述s1中:4个音频输入通道是mic信号的log-mel谱图表示,其他8个输入 通道是mic信号之间的广义互相关的时频表示;
16.优选的是,所述s2包括:
17.s21:在log-mel谱图之后增加多尺度模块,提取log-mel谱图更深层次的特征;
18.s22:设计空间通道挤压激励模块;
19.优选的是,所述s2中,增加的多尺度模块采用三组并行卷积分支对时频图进行特征提 取,每层卷积的激活函数均采用relu。其中第一组只采用一个卷积层,第二组和第三组均 采用三个卷积层,最后把这三层输出的结果进行融合,然后再经过最大池化层输出。
20.优选的是,所述s2中,设计空间通道挤压激励模块,用此模块替换卷积层,空间通道 挤压模型从空间关系的角度对模型引入了注意力机制,增加了通道之间的相互依赖性。
21.优选的是,所述s3和s4中,通过全连接层作为不同的任务执行,分别实现了声音事件 的检测和声源的定位。
22.本发明的有益效果,为了准确的对复音事件进行检测和定位,本发明提出了多尺度空 间通道挤压激励卷积递归神经网络方法。设计不同卷积核大小的多分支卷积神经网
络捕获 不同尺度的特征,这些特征互为补充以提高分类的准确性,并将空间通道挤压激励模块融 合进网络模型,增强了crnn的通道和空间关系,并对主要特征进行自动学习,使从网络中 提取的特征指向性更强,从而提高了seld的效果。进而实现高精度的事件检测和定位。
附图说明
23.图1为多尺度空间通道挤压激励模型流程图;
24.图2为多尺度特征提取模块结构图;
25.图3为挤压激励模块结构图;
26.图4为空间挤压激励模型结构图;
27.图5为通道挤压激励模型结构图;
28.图6为空间通道挤压激励模型结构图;
29.图7为模型的输入和处理后的输出结果图;
30.图8为笛卡尔坐标结果图;
具体实施方式
31.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他 实施例,都属于本发明保护的范围。
32.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组 合。
33.下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。本实施 方式的多尺度空间通道挤压激励模型的seld方法是首先通过四个麦克风获取声音信号, 然后把4通道的声音信号用log-mel谱图表示,加上4通道信号的两两广义互相关的时频 表示,送入到网络中进行声音事件的检测和声源定位,系统总体框图如图1所示。本实施 方式一种多尺度空间通道挤压激励模型的seld的实现,包括:
34.s1、根据时域声音信号,提取时频域特征:
35.本实施为了更好的提取声音的深层信息和空间信息,在输入端采用的是4麦克风阵列 收集声音信号,在送入到神经网络之前会经过时频变换转化成log-mel谱图,以便神经网络 能获取更深层信息。
36.为了更好的提取空间信息,把输入端麦克风采集得到的声音信号的两两广义互相关的 时频表示也送入到深度神经网络中。由于采用的是4通道的麦克风阵列,所有会生成8 通道的两两广义互相关的时频表示,因此送入到神经网络的通道数为12。
37.s2、确定训练目标,将得到的时频域表示送入到空间通道挤压激励模型网络中进行训 练,提取特征图中时频域的深层信息,包括:
38.s21:在log-mel谱图之后增加多尺度模块,提取log-mel谱图更深层次的特征;
39.s22:设计空间通道挤压激励模块;
40.在声音事件检测任务中,提取的特征越丰富分类的准确度越高。大部分学者使用
的模 型都是对时频图进行单一尺度的卷积操作及特征提取,由于单一尺度设计在一定程度上限 制了模型特征提取和分类的能力。因此,本实施对复杂环境下的声音事件识别采用多个并 行卷积分支对数据进行特征提取,且不同尺度的卷积对时频图特征起到了互相补充的作用 用以提高整个神经网络模型的稳健性,提出一种多尺度卷积结构模型,这种多尺度卷积模 型放在了log-mel谱图之后,多尺度卷积模型模块的结构及网络参数设置如图2所示。
41.图2中,多尺度卷积模型结构采用了三组并行卷积分支对时频图进行特征提取,不同 尺度的卷积互为补充以提高模型的检测准确度。用1
×
n卷积和n
×
1卷积代替了n
×
n卷 积,n代表卷积核数,节省计算时间成本。第一组并行cnn层是通过1
×
1卷积层实现, 随后是批量归一化(batch normalization,bn)和校正线性单元(rectified linear units, relu)进行激活,另外两组由三个cnn层组成,1
×
1,1
×
n(n=3,5)用于获取频域特征, n(n=3,5)
×
1用于获取时域特征,本实施将三组并行网络的输出从一维连接在一起,采用 max pool来提取代表值。
42.将提取得到的log-mel谱图的代表值与其它8个输入通道的广义互相关的时频表示进 行融合后送入到空间通道挤压激励模型中进行特征提取。挤压激励网络模型 (squeeze-and-excitation-networks,se)的主要思想是独立学习空间和通道的特征映射, 而不是像标准的cnn一样共同学习,通过结合一些全局分组算子、线性算子和块的输入及 其学习关系之间的最终校准来实现的。se模块作用于通道的原理图如图3所示。 u=[u1,u2,...,un]表示输出的特征映射,w和h分别表示高度和宽度,c表示通道数。 x=[x1,x2,...,xc]为特征图u经过挤压激励操作后输出的加权特征图。se模型的操作过程 如图3所示。
[0043]
图3中,f
sq
对特征进行挤压操作,f
ex
对特征进行提取操作。f
scale
对特征进行重标定 操作。有学者同时考虑了通道和空间关系对se的影响并进行改进,空间挤压激励模型 (spatially squeeze-excitation,sse)如图4所示,通道挤压激励模型(channelsqueeze-excitation,cse)如图5所示。
[0044]
图4中,sse模型从空间关系的角度引入注意力机制。将h
×w×
c的特征图经过 1
×1×
1卷积降维、sigmoid函数激活,得到1
×h×
w维度的特征图,通过特征重标定,与 原来特征图u对应空间上相乘得到新的特征图最后经过sigmoid归一化到[0,1]。
[0045]
图5中,cse思想是通过以通道方式进行刺激,为特征映射的通道之间的相互依赖建 立模型。该模型在图像分类任务中得到了很好的验证,仅通过在网络的特定点插入此模块, 就会比其它先进的网络表现更好。首先,通过全局平均池化方法获得u中每个通道的唯 一特征图,经过2个不同权重的全连接层,让relu激活函数增强各个通道之间的独立性, 最后经sigmoid层,归一化到[0,1]。
[0046]
由于sse模型考虑了空间结构,cse模型考虑了通道排列,因此对二者输出做加和操 作,得到scse模型以增强cnn空间编码能力,提高神经网络识别效果,提取得到了更深 层次的信息,建立空间通道挤压激励模型(spatially and channel squeeze-excitation, scse),如图6所示。
[0047]
s3、把提取得到的深层信息通过全连接层作为分类任务执行输出声音事件的标签:
[0048]
本实施通过空间通道挤压激励模型之后就已经得到了更深层次的特征,然后把这些特 征送入到全连接层,作为分类任务执行,得到声音事件。全连接层的神经元个数是128 个,激活函数采用sigmoid函数,就可以输出声音事件的标签。
[0049]
s4、把提取得到的深层信息通过全连接层作为多输出回归任务执行实现声音的定位;
[0050]
本实施把空间通道挤压激励模型之后的这些特征送入到多输出回归任务的全连接层, 输出声源的位置信息。全连接层的神经元个数是128个,激活函数采用tanh函数,就可 以实现声音的定位。
[0051]
实验:
[0052]
1、实验环境
[0053]
实验设备采用处理器inter(r)core(tm)i7-9700 cpu@3.00ghz,安装内存32g, 操作系统64位windows10,gpu型号geforce rtx 2080ti,实验在gpu模式下运行。
[0054]
2、语音数据集
[0055]
实验选取的数据集是dcase2020task3下的开发数据集和评估数据集,开发集包括600 个1分钟长的录音,评估集由200个一分钟的录音组成,在24khz采样,其主要包含14 类声音,有钢琴、男性说话声、女性说话声、吠叫、婴儿啼哭等等,每个场景记录以两种 空间记录格式传送,一种是麦克风阵列(microphones,mic),一种是一阶空间立体声 (first-order ambisionics,foa),使用基线方法中提供的固定分割来完成实验。选用 400个录音用于训练分割,100个用于验证,100个用于测试。
[0056]
3、评价指标
[0057]
为了更好的评价模型的识别和定位性能,使用联合评价检测和定位性能指标对模型进 行评价,分别为:f1分数和er、de、de_f1。
[0058][0059]
tp代表真阳性(true positive,tp),fp代表假阳性(false positive,fp),fn 代表假阴性(false negative,fn)。
[0060]
s(k)=min(fn(k),fp(k))
[0061]
d(k)=max(0,fn(k)-fp(k))
[0062]
i(k)=max(0,fp(k)-fn(k))
[0063]
计算er的方法如下:
[0064][0065]
[0066]
其中,表示估计在第k个时间的总的角度数。h表示解决任务分配的匈牙 利算法。求解某一时刻的成本计算如下:
[0067]
δ=arccos(sinλeλr+cosλ
e cosλ
r cos(|φ
r-φe|))
[0068]
其中,参考doa的方位角为φr∈[-π,π],俯仰角为
[0069]
如果预测和参考的声音种类是相同的,并且它们之间的距离低于阈值20
°
,则认为 预测是正确的。关于定位,对应于以度为单位的de和以秒非重叠段中的de_f1,与检测 指标不同,定位指标不使用任何距离阈值,而是只考虑正确预测和参考之间的距离。在理 想的环境下,f1分数越接近于1,doa误差接近0,表示系统的预测和实际数值越接近, 性能越好。
[0070]
4、实验结果
[0071]
对于数据集中的每个声音事件,网络的sed输出在[0,1]的连续范围内,该值被阈值 化以获得相应声音事件活动的二进制决策。为了研究声音事件占比小的声音事件检测和定 位,利用多尺度空间通道挤压激励模型进行处理,模型的输入和处理后的输出结果如图7 所示。图左侧为参考值,记录实际真实信息,右侧为预测值,记录系统的输出结果。sed 参考值的坐标代表多种声音类别及其输出的波达方向。
[0072]
由图7可知,有5种不同的声音事件及其相关的方位角和俯仰角信息,同参考值相比, 偏差较低。
[0073]
由图8可知,声音事件的检测和定位估计在有混响干扰的条件下出现了不稳定,估计 结果和真实结果在检测上几乎重合,在定位部分有偏移,但是对检测和定位的任务影响不 大。系统仍旧给出了比较准确的结果,表明本发明提出模型效果较好。