基于分类以及特征提取的语音质量评估方法与流程

1.本技术涉及语音质量评价技术领域，特别是涉及一种基于分类以及特征提取的语音质量评估方法。

背景技术：

2.近年来,随着数字网络和超大规模集成电路技术的飞速发展,各类音视频处理技术和音视频传输技术层出不穷。由于通信使用者和消费者对于音视频的主观感受最终取决于音视频质量,因此语音视频质量评价日益成为重要的研究课题。
3.语音质量评价从评价主体上可分为两大类：主观评价和客观评价。主观质量评价能够准确反映语音质量，但是实现起来步骤复杂，实时性不好，不宜用于实时话音通信中的质量评价；客观质量评价方法对于网络语音业务更为适用，目前是语音质量评价研究领域的热点。
4.根据是否需要原始信号，客观评价方法分为全参考和无参考两类。全参考评价方法是通过比较原始信号和失真信号之间的差别来判别语音质量的好坏的。目前，国际电信联盟推荐的语音质量全参考客观评价算法是基于语音质量感知评价(pesq)模型。相对于以往的算法，pesq模型对通信时延、环境噪声和错误都有较好的识别能力，但是该算法的复杂度较高，不适合于实时评测语音质量，也不宜于在计算能力有限的微系统上实现。而无参考评价方法只根据失真信号或统计网络参数来评价语音质量，可以适用于不同的语言环境。itu-t制定的g.107标准使用网络平均丢包率来预测网络语音质量，这种方法无须原始语音信息。然而，网络语音质量下降的程度不仅与丢失包的个数有关，而且与丢失包的内容特性有关，不同内容特性的包丢失对语音质量的影响不同。这类方法没有充分考虑这些因素，因此准确度不高。

技术实现要素：

5.基于此，有必要针对上述技术问题，提供一种基于分类以及特征提取的语音质量评估方法。
6.1.基于分类以及特征提取的语音质量评估方法，其特征在于，所述方法包括：
7.获取待评估的语音数据，并对所述语音数据中各帧语音进行傅里叶变换后相应统计其幅值信息，得到与各帧语音对应的幅值信息；
8.根据各帧语音对应的幅值信息以及预设参数将各帧语音进行分类，分类结果包括第一类别、第二类别以及第三类别，将分类结果为第二类别以及第三类别的各帧语音进行特征提取，并根据提取的特征对对应帧语音进行评估，得到第二类别以及第三类别的各帧语音的评估结果；
9.根据所述第二类别以及第三类别的各帧语音的评估结果进行均值计算得到所述待评估的语音数据的质量评估结果。
10.在其中一实施例中，所述根据各帧语音对应的幅值信息以及预设参数将各帧语音
进行分类，具体包括：
11.当一帧语音对应的幅值信息小于所述预设参数时，则将该帧语音分为第一类别；
12.当一帧语音对应的幅值信息大于或等于所述预设参数，且小于5倍所述预设参数时，则将该帧语音分为第二类别；
13.当一帧语音对应的幅值信息大于等于5倍所述预设参数时，则将该帧语音分为第三类别。
14.在其中一实施例中，所述将分类结果为第二类别的各帧语音进行特征提取，并根据提取的特征对对应帧语音进行评估具体包括：
15.对一帧语音采用带通滤波器进行滤波，得到滤波后的语音信号；
16.根据所述滤波后的语音信号进行特征提取，提取得到一个表征人类听觉感知的第一特征；
17.将所述第一特征分别映射到一个质量空间，得到该帧语音的评估结果。
18.在其中一实施例中，所述第一特征提取表示为：
[0019][0020]
在上式中，y2i(n)为滤波后的语音信号，λ1和λ2为预设参数，其取值范围在[0.1]之间，f1i为所述第一特征。
[0021]
在其中一实施例中，将所述第一特征分别映射到一个质量空间，得到该帧语音的评估结果，采用以下公式：
[0022][0023]
在上式中，mosi为各帧语音的评估结果。
[0024]
在其中一实施例中，所述将分类结果为第三类别的各帧语音再进行特征提取，并根据提取的特征对对应帧语音进行评估具体包括：
[0025]
对一帧语音采用gammatone滤波器进行滤波，得到滤波后的语音信号；
[0026]
根据所述滤波后的语音信号进行特征提取，提取得到两个表征人类听觉感知的第二特征以及第三特征；
[0027]
根据所述第二特征和第三特征计算得到聚合因子，根据所述聚合因子进行计算，得到该帧语音的评估结果。
[0028]
在其中一实施例中，所述第二特征提取表示为：
[0029]
f2i＝λ3
×
exp(-1/y3i(n))
[0030]
在上式中，y3i(n)为滤波后的语音信号，λ3为预设参数，其取值范围在[1，10]之间，f2i为所述第二特征；
[0031]
所述第三特征提取表示为：
[0032][0033]
在上式中，y3i(n)为滤波后的语音信号，λ4和λ5为预设参数，其取值范围在[10，
20]之间，f3i为所述第三特征。
[0034]
在其中一实施例中，根据所述第二特征和第三特征计算得到聚合因子，其中采用以下公式进行计算：
[0035][0036]
在上式中，μ1i表示聚合因子。
[0037]
在其中一实施例中，根据所述聚合因子进行计算得到该帧语音的评估结果，采用以下公式：
[0038][0039]
在上式中，mosi为各帧语音的评估结果。
[0040]
在其中一实施例中，所述待评估的语音数据的时长小于10秒
[0041]
一种基于分类以及特征提取的语音质量评估装置，所述装置包括：
[0042]
语音数据获取模块，用于获取待评估的语音数据，并对所述语音数据中各帧语音进行傅里叶变换后相应统计其幅值信息，得到与各帧语音对应的幅值信息；
[0043]
各帧语音质量评估模块，用于根据各帧语音对应的幅值信息以及预设参数将各帧语音进行分类，分类结果包括第一类别、第二类别以及第三类别，将分类结果为第二类别以及第三类别的各帧语音进行特征提取，并根据提取的特征对对应帧语音进行评估，得到第二类别以及第三类别的各帧语音的评估结果；
[0044]
质量评估结果得到模块，用于根据所述第二类别以及第三类别的各帧语音的评估结果进行均值计算得到所述待评估的语音数据的质量评估结果。
[0045]
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
[0046]
获取待评估的语音数据，并对所述语音数据中各帧语音进行傅里叶变换后相应统计其幅值信息，得到与各帧语音对应的幅值信息；
[0047]
根据各帧语音对应的幅值信息以及预设参数将各帧语音进行分类，分类结果包括第一类别、第二类别以及第三类别，将分类结果为第二类别以及第三类别的各帧语音进行特征提取，并根据提取的特征对对应帧语音进行评估，得到第二类别以及第三类别的各帧语音的评估结果；
[0048]
根据所述第二类别以及第三类别的各帧语音的评估结果进行均值计算得到所述待评估的语音数据的质量评估结果。
[0049]
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
[0050]
获取待评估的语音数据，并对所述语音数据中各帧语音进行傅里叶变换后相应统计其幅值信息，得到与各帧语音对应的幅值信息；
[0051]
根据各帧语音对应的幅值信息以及预设参数将各帧语音进行分类，分类结果包括第一类别、第二类别以及第三类别，将分类结果为第二类别以及第三类别的各帧语音进行特征提取，并根据提取的特征对对应帧语音进行评估，得到第二类别以及第三类别的各帧
语音的评估结果；
[0052]
根据所述第二类别以及第三类别的各帧语音的评估结果进行均值计算得到所述待评估的语音数据的质量评估结果。
[0053]
上述基于分类以及特征提取的语音质量评估方法，通过对待评估的语音数据先进行分类，再根据分类结果相应进行特征提取，并根据提取的特征进行评分，这样充分考虑语音信号之间的差异，并且针对不同的语音信号采用不同的质量评价方法，评价效果良好且算法复杂度低，有很好的实用价值。
附图说明
[0054]
图1为一个实施例中基于分类以及特征提取的语音质量评估方法的流程示意图；
[0055]
图2为一个实施例中采用语音质量评估方法进行实际操作的算法流程示意图；
[0056]
图3为一个实施例中基于分类以及特征提取的语音质量评估装置的结构框图；
[0057]
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
[0058]
为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
[0059]
如图1所示，提供了一种基于分类以及特征提取的语音质量评估方法，包括以下步骤：
[0060]
步骤s100，获取待评估的语音数据，并对语音数据中各帧语音进行傅里叶变换后相应统计其幅值信息，得到与各帧语音对应的幅值信息；
[0061]
步骤s110，根据各帧语音对应的幅值信息以及预设参数将各帧语音进行分类，分类结果包括第一类别、第二类别以及第三类别，将分类结果为第二类别以及第三类别的各帧语音进行特征提取，并根据提取的特征对对应帧语音进行评估，得到第二类别以及第三类别的各帧语音的评估结果；
[0062]
步骤s120，根据第二类别以及第三类别的各帧语音的评估结果进行均值计算得到待评估的语音数据的质量评估结果。
[0063]
在本实施例中，将待评估的语音数据通过傅里叶变换，再计算各帧语音数据的幅值，根据各帧语音数据的幅值信息进行分类，再根据分为不同类别的各帧语音数据进行相应的特征提取，这样考虑到了各帧语音数据之间差异，而采用不同的方式进行特征提取，以及质量评估方式，这样的语音质量评估方式有评价效果好且算法复杂度低，有很好的使用价值。
[0064]
具体的，在步骤s100中，首先对获取的语音数据y(n)进行模数转换，并得到转换后的数字信号分帧yi(n)，其中i表示帧序号，n表示采样点数。再对数字信号分帧yi(n)进行傅里叶变换，得到yi(k)，其中k表示频点，最后统计各帧语音数据的幅值信息，并在步骤s110中，根据幅值信息对各帧语音数据进行分类。
[0065]
在步骤s110中，根据各帧语音对应的幅值信息以及预设参数将各帧语音进行分类，具体包括：当一帧语音对应的幅值信息小于预设参数时，则将该帧语音分为第一类别。
当一帧语音对应的幅值信息大于或等于预设参数，且小于5倍预设参数时，则将该帧语音分为第二类别。当一帧语音对应的幅值信息大于等于5倍预设参数时，则将该帧语音分为第三类别。
[0066]
具体的，当一帧语音小于预设参数时，则说明该帧数据中并没有什么有用的信息，所以直接忽略，不参与后续质量评价。而预设参数为一个很小的正数。
[0067]
而当一帧语音对应的幅值信息大于或等于预设参数，且小于5倍预设参数时，也就是该帧语音为第二类别时，则对该帧语音数据进行一下处理：对一帧语音采用带通滤波器进行滤波，得到滤波后的语音信号，根据滤波后的语音信号进行特征提取，提取得到一个表征人类听觉感知的第一特征，将第一特征分别映射到一个质量空间，得到该帧语音的评估结果。
[0068]
进一步的，在对该类别的语音数据进行特征提取之间，通过一个截止频率很低的带通滤波器l(h)对语音信号yi(n)进行滤波，使得频谱中的变化缓慢或不变的部分被一直，而动态部分被加强，该带通滤波器l(h)的公式如下：
[0069][0070]
滤波后的语音信号记为y2i(n)，再根据该信号提取一个能够表征人类听觉感知的第一特征f1i，该特征提取表示为：
[0071][0072]
在公式(2)中，λ1和λ2为预设参数，其取值范围在[0.1]之间。
[0073]
在本实施例中，通过对大量语音视频进行实验分析，确定λ1和λ2的取值范围在[0.1]之间。
[0074]
再将第一特征分别映射到一个质量空间，得到该帧语音的评估结果，采用以下公式：
[0075][0076]
在上式中，mosi为各帧语音的评估结果。
[0077]
而当一帧语音对应的幅值信息大于等于5倍预设参数时，也就是说该帧语音数据为第三类别时，则对该帧语音数据进行一下处理：对一帧语音采用gammatone滤波器进行滤波，得到滤波后的语音信号，根据滤波后的语音信号进行特征提取，提取得到两个表征人类听觉感知的第二特征以及第三特征，根据第二特征和第三特征计算得到聚合因子，再根据聚合因子进行计算，得到该帧语音的评估结果。
[0078]
进一步的，将分类为第三类别的语音数据通过一个gammatone滤波器g(h)对语言信号yi(n)进行滤波。gammatone滤波器只需要很少的参数就能很好地模拟人类耳蜗频率分解的特点，常常用于音频信号处理，便于后续进行特征提取，该滤波器g(h)的公式如下：
[0079]
g(h)＝ch
m-1
exp(-2πbh)cos(2πf0+φ)d(h)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0080]
在公式(4)中，c是比例系数，m是滤波器阶数，b是时间衰减系数，f0是滤波器中心
频率，φ是滤波器相位，当h＞0时d(h)＝1否则d(h)＝0，滤波后的语音信号记为y3i(n)。
[0081]
再对滤波后的语音信号采用以下两个公式分别进行第二特征以及第三特征的提取，其中第二特征提取表示：
[0082]
f2i＝λ3
×
exp(-1/y3i(n))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0083]
在公式(5)中，λ3为预设参数，其取值范围在[1，10]之间，f2i为第二特征；
[0084]
第三特征提取表示为：
[0085][0086]
在公式(6)中，λ4和λ5为预设参数，其取值范围在[10，20]之间，f3i为第三特征。
[0087]
具体的，参数λ3、λ4和λ5的取值范围均为通过大量语音视频进行实验分析得到。
[0088]
再根据第二特征f2i以及第三特征f3i采用以下公式进行计算，得到各帧语音数据对应的聚合因子μ1i：
[0089][0090]
在公式(7)中，μ1i表示聚合因子。
[0091]
最后根据聚合因子进行计算得到该帧语音的评估结果，采用以下公式：
[0092][0093]
在公式(8)中，mosi为各帧语音的评估结果。
[0094]
这样将分类后的每一帧语音数据都按照各自类别的质量计算方法进行计算得到对应的质量评估mosi，然后求取均值，就可以得到这段待评估的，语音信号的质量评估结果。
[0095]
在本实施例中，待评估的语音数据的时长小于10秒。
[0096]
在根据上述方法进行语音质量评估时，还可以根据图2所示的算法流程进行评估。
[0097]
上述基于分类以及特征提取的语音质量评估方法中，首先根据频域幅值信息将语音信号分成3类进行分类评价：第一类不参与评价；第二类信号首先通过带通滤波进行语音增强，然后提取一个能够表征人类听觉感知的特征，最后根据特征进行质量评价；第三类信号首先通过gammatone滤波器进行处理，然后提取两类能够表征人类听觉感知的不同特征，根据两个特征计算聚合因子，最后根据聚合因子进行质量评价。本发明提出的语音质量评价方法，充分考虑语音信号之间的差异，针对不同的语音信号采用不同的质量评价方法，评价效果良好且算法复杂度低，有很好的实用价值。
[0098]
应该理解的是，虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地
执行。
[0099]
在一个实施例中，如图3所示，提供了一种基于分类以及特征提取的语音质量评估装置，包括：语音数据获取模块200、各帧语音质量评估模块210和质量评估结果得到模块220，其中：
[0100]
语音数据获取模块200，用于获取待评估的语音数据，并对所述语音数据中各帧语音进行傅里叶变换后相应统计其幅值信息，得到与各帧语音对应的幅值信息；
[0101]
各帧语音质量评估模块210，用于根据各帧语音对应的幅值信息以及预设参数将各帧语音进行分类，分类结果包括第一类别、第二类别以及第三类别，将分类结果为第二类别以及第三类别的各帧语音进行特征提取，并根据提取的特征对对应帧语音进行评估，得到第二类别以及第三类别的各帧语音的评估结果；
[0102]
质量评估结果得到模块220，用于根据所述第二类别以及第三类别的各帧语音的评估结果进行均值计算得到所述待评估的语音数据的质量评估结果。
[0103]
关于基于分类以及特征提取的语音质量评估装置的具体限定可以参见上文中对于基于分类以及特征提取的语音质量评估方法的限定，在此不再赘述。上述基于分类以及特征提取的语音质量评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0104]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于分类以及特征提取的语音质量评估方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0105]
本领域技术人员可以理解，图4中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0106]
在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：
[0107]
获取待评估的语音数据，并对所述语音数据中各帧语音进行傅里叶变换后相应统计其幅值信息，得到与各帧语音对应的幅值信息；
[0108]
根据各帧语音对应的幅值信息以及预设参数将各帧语音进行分类，分类结果包括第一类别、第二类别以及第三类别，将分类结果为第二类别以及第三类别的各帧语音进行特征提取，并根据提取的特征对对应帧语音进行评估，得到第二类别以及第三类别的各帧语音的评估结果；
[0109]
根据所述第二类别以及第三类别的各帧语音的评估结果进行均值计算得到所述
待评估的语音数据的质量评估结果。
[0110]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：
[0111]
获取待评估的语音数据，并对所述语音数据中各帧语音进行傅里叶变换后相应统计其幅值信息，得到与各帧语音对应的幅值信息；
[0112]
根据各帧语音对应的幅值信息以及预设参数将各帧语音进行分类，分类结果包括第一类别、第二类别以及第三类别，将分类结果为第二类别以及第三类别的各帧语音进行特征提取，并根据提取的特征对对应帧语音进行评估，得到第二类别以及第三类别的各帧语音的评估结果；
[0113]
根据所述第二类别以及第三类别的各帧语音的评估结果进行均值计算得到所述待评估的语音数据的质量评估结果。
[0114]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0115]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0116]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。