语音活动检测方法、装置、计算机可读存储介质及设备与流程

1.本技术涉及音频处理技术领域，具体而言，涉及一种语音活动检测方法、语音活动检测装置、计算机可读存储介质及电子设备。

背景技术：

2.随着智能客服技术的发展，客服服务不再仅依赖于人工，而是可以自动识别用户的语音，并根据对用户语音的分析匹配出适合的答复。具体地，需要先获取提供客服服务过程中的通话语音，并对通话语音进行识别，以确定其中的语义，进而再根据语义匹配相关的回复。但是，通话语音中，有包含用户话音的音频段也有不包含用户话音的静默音频段，如果对通话语音进行整体识别，则容易造成识别效率较低的问题。
3.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本技术的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

4.本技术的目的在于提供一种语音活动检测方法、语音活动检测装置、计算机可读存储介质及电子设备，可以对音频数据进行切分，并基于每个音频片段中的关键帧确定音频数据中包含用户语音的语音片段，进而可以对包含用户语音的语音片段进行语义识别，提升对于计算资源的利用率以及语义识别效率。
5.本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。
6.根据本技术的一方面，提供一种语音活动检测方法，包括：
7.当接收到音频数据时，将音频数据切分为多个音频片段；
8.根据预设关键帧规则确定多个音频片段中各音频片段的关键帧；
9.根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段；
10.对语音片段进行语义识别，并基于语义识别结果匹配相应的语音回复。
11.在本技术的一种示例性实施例中，将音频数据切分为多个音频片段之前，上述方法还包括：
12.检测音频数据中包含噪声的特定音频帧；
13.基于至少一个预设音频信号对特定音频帧进行去噪处理，得到去噪处理后的音频数据。
14.在本技术的一种示例性实施例中，预设关键帧规则用于限定各音频片段中的关键帧数量以及关键帧位置。
15.在本技术的一种示例性实施例中，根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段，包括：
16.根据预设字节数量对各音频片段的关键帧进行字节级切分，得到各关键帧对应的字节组集合；其中，字节组集合中的各字节组均包含多个字节，各字节组对应于相同的字节
数量；
17.根据各关键帧对应的字节组集合从多个音频片段中确定包含用户语音的语音片段。
18.在本技术的一种示例性实施例中，根据各关键帧对应的字节组集合从多个音频片段中确定包含用户语音的语音片段，包括：
19.将各字节组集合进行集合内的帧级别重组，得到各音频片段分别对应的重组帧；
20.对各音频片段分别对应的重组帧进行语音检测，得到各音频片段分别对应的语音检测结果；其中，语音检测结果用于表征目标音频片段与用户语音之间的关系，目标音频片段为各音频片段中任一音频片段；
21.根据各音频片段分别对应的语音检测结果确定包含用户语音的语音片段。
22.在本技术的一种示例性实施例中，语音片段包括一类语音片段和二类语音片段，根据各音频片段分别对应的语音检测结果确定包含用户语音的语音片段，包括：
23.确定与目标音频片段在时间上连续的前一音频片段；
24.若前一音频片段的语音检测结果与目标音频片段的语音检测结果均表示包含用户语音，则判定前一音频片段和目标音频片段之间不存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段；
25.若前一音频片段的语音检测结果表示不包含用户语音，目标音频片段的语音检测结果表示包含用户语音，则判定前一音频片段和目标音频片段之间存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段。
26.在本技术的一种示例性实施例中，对语音片段进行语义识别，包括：
27.若存在时间上连续的语音片段，则将时间上连续的语音片段合并为待识别语音；
28.将待识别语音转换为文本信息，并对文本信息进行语义识别，得到语义识别结果。
29.根据本技术的一方面，提供一种语音活动检测装置，包括：
30.音频切分单元，用于当接收到音频数据时，将音频数据切分为多个音频片段；
31.关键帧确定单元，用于根据预设关键帧规则确定多个音频片段中各音频片段的关键帧；
32.语音片段确定单元，用于根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段；
33.语义识别单元，用于对语音片段进行语义识别，并基于语义识别结果匹配相应的语音回复。
34.在本技术的一种示例性实施例中，上述装置还包括：
35.去噪单元，用于在音频切分单元将音频数据切分为多个音频片段之前，检测音频数据中包含噪声的特定音频帧；基于至少一个预设音频信号对特定音频帧进行去噪处理，得到去噪处理后的音频数据。
36.在本技术的一种示例性实施例中，预设关键帧规则用于限定各音频片段中的关键帧数量以及关键帧位置。
37.在本技术的一种示例性实施例中，语音片段确定单元根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段，包括：
38.根据预设字节数量对各音频片段的关键帧进行字节级切分，得到各关键帧对应的
字节组集合；其中，字节组集合中的各字节组均包含多个字节，各字节组对应于相同的字节数量；
39.根据各关键帧对应的字节组集合从多个音频片段中确定包含用户语音的语音片段。
40.在本技术的一种示例性实施例中，语音片段确定单元根据各关键帧对应的字节组集合从多个音频片段中确定包含用户语音的语音片段，包括：
41.将各字节组集合进行集合内的帧级别重组，得到各音频片段分别对应的重组帧；
42.对各音频片段分别对应的重组帧进行语音检测，得到各音频片段分别对应的语音检测结果；其中，语音检测结果用于表征目标音频片段与用户语音之间的关系，目标音频片段为各音频片段中任一音频片段；
43.根据各音频片段分别对应的语音检测结果确定包含用户语音的语音片段。
44.在本技术的一种示例性实施例中，语音片段包括一类语音片段和二类语音片段，语音片段确定单元根据各音频片段分别对应的语音检测结果确定包含用户语音的语音片段，包括：
45.确定与目标音频片段在时间上连续的前一音频片段；
46.若前一音频片段的语音检测结果与目标音频片段的语音检测结果均表示包含用户语音，则判定前一音频片段和目标音频片段之间不存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段；
47.若前一音频片段的语音检测结果表示不包含用户语音，目标音频片段的语音检测结果表示包含用户语音，则判定前一音频片段和目标音频片段之间存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段。
48.在本技术的一种示例性实施例中，语义识别单元对语音片段进行语义识别包括：
49.在存在时间上连续的语音片段时，将时间上连续的语音片段合并为待识别语音；
50.将待识别语音转换为文本信息，并对文本信息进行语义识别，得到语义识别结果。
51.根据本技术的一方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的方法。
52.根据本技术的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意一项的方法。
53.根据本技术的一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的各种可选实现方式中提供的方法。
54.本技术示例性实施例可以具有以下部分或全部有益效果：
55.在本技术的一示例实施方式所提供的语音活动检测方法中，可以当接收到音频数据时，将音频数据切分为多个音频片段；根据预设关键帧规则确定多个音频片段中各音频片段的关键帧；根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段；对语音片段进行语义识别，并基于语义识别结果匹配相应的语音回复。依据上述方案描述，本技术一方面，可以对音频数据进行切分，并基于每个音频片段中的关键帧确定音频数据中包含用户语音的语音片段，进而可以对包含用户语音的语音片段进行语义识别，提升
对于计算资源的利用率以及语义识别效率。本技术另一方面，可以降低人工成本，实现电话客服的智能化和自动化。
56.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
57.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
58.图1示出了可以应用本技术实施例的一种语音活动检测方法及语音活动检测装置的示例性系统架构的示意图；
59.图2示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图；
60.图3示意性示出了根据本技术的一个实施例的语音活动检测方法的流程图；
61.图4示意性示出了根据本技术的一个实施例的音频数据的波形示意图；
62.图5示意性示出了根据本技术的一个实施例的语音活动检测方法的流程图；
63.图6示意性示出了根据本技术的一个实施例的语音活动检测系统的结构示意图；
64.图7示意性示出了根据本技术的一个实施例中的语音活动检测装置的结构框图。
具体实施方式
65.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本技术将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本技术的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本技术的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本技术的各方面变得模糊。
66.此外，附图仅为本技术的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
67.图1示出了可以应用本技术实施例的一种语音活动检测方法及语音活动检测装置的示例性应用环境的系统架构的示意图。
68.如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算
机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
69.本技术实施例所提供的语音活动检测方法一般由服务器105执行，相应地，语音活动检测装置一般设置于服务器105中。但本领域技术人员容易理解的是，本技术实施例所提供的语音活动检测方法也可以由终端设备101、102或103执行，相应的，语音活动检测装置也可以设置于终端设备101、102或103中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，服务器105可以当接收到音频数据时，将音频数据切分为多个音频片段；根据预设关键帧规则确定多个音频片段中各音频片段的关键帧；根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段；对语音片段进行语义识别，并基于语义识别结果匹配相应的语音回复。
70.图2示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
71.需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
72.如图2所示，计算机系统200包括中央处理单元(cpu)201，其可以根据存储在只读存储器(rom)202中的程序或者从储存部分208加载到随机访问存储器(ram)203中的程序而执行各种适当的动作和处理。在ram 203中，还存储有系统操作所需的各种程序和数据。cpu 201、rom 202以及ram 203通过总线204彼此相连。输入/输出(i/o)接口205也连接至总线204。
73.以下部件连接至i/o接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分207；包括硬盘等的储存部分208；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至i/o接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入储存部分208。
74.特别地，根据本技术的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(cpu)201执行时，执行本技术的方法和装置中限定的各种功能。
75.本示例实施方式提供了一种语音活动检测方法。该语音活动检测方法可以应用于上述服务器105，也可以应用于上述终端设备101、102、103中的一个或多个，本示例性实施例中对此不做特殊限定。参考图3所示，该语音活动检测方法可以包括以下步骤s310至步骤s340。
76.步骤s310：当接收到音频数据时，将音频数据切分为多个音频片段。
77.步骤s320：根据预设关键帧规则确定多个音频片段中各音频片段的关键帧。
78.步骤s330：根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段。
79.步骤s340：对语音片段进行语义识别，并基于语义识别结果匹配相应的语音回复。
80.实施图3所示的方法，可以对音频数据进行切分，并基于每个音频片段中的关键帧确定音频数据中包含用户语音的语音片段，进而可以对包含用户语音的语音片段进行语义识别，提升对于计算资源的利用率以及语义识别效率。此外，还可以降低人工成本，实现电话客服的智能化和自动化。
81.下面，对于本示例实施方式的上述步骤进行更加详细的说明。
82.在步骤s310中，当接收到音频数据时，将音频数据切分为多个音频片段。
83.其中，音频数据可以为包含一段或多段用户语音的话音数据，切分得到的音频片段可以为等长片段也可以为非等长片段，本技术对于音频片段的数量不作限定。此外，音频片段可以包含n1个音频帧，n1(如，2)为正整数；每个音频帧的长度可以通过tms进行表示，t(如，10、20、30)为正整数；每个音频帧中可以包括n2个采样点，n2(如，80、160、240)为正整数；每个音频帧包含n3个字节，n3(如，160、320、640)为正整数。举例来说，本技术中的音频片段包含2个音频帧，每个音频帧的长度为10ms，每个音频帧包含80个采样点，每个音频帧包含160个字节。
84.具体地，切分得到的多个音频片段可以参阅图4，图4示意性示出了根据本技术的一个实施例的音频数据的波形示意图。如图4所示，波形示意图的横轴可以表示时间，纵轴可以表示功率。通过将音频数据切分为多个音频片段，根据预设关键帧规则确定多个音频片段中各音频片段的关键帧，以及根据各音频片段的关键帧可以从多个音频片段中确定包含用户语音的语音片段，语音片段对应于波形示意图的时间戳指示可以如下所示：
85.[0086][0087]
在步骤s310的将音频数据切分为多个音频片段之前，上述方法还包括：检测音频数据中包含噪声的特定音频帧；基于至少一个预设音频信号对特定音频帧进行去噪处理，得到去噪处理后的音频数据。
[0088]
其中，音频数据中包含噪声的特定音频帧可以为一个或多个，本技术实施例不作限定。检测音频数据中包含噪声的特定音频帧的具体方式可以为：将音频数据的每一帧音频与噪声库的噪声频率进行比对，将符合噪声频率的音频帧确定为特定音频帧。此外，可以基于至少一个预设音频信号对特定音频帧进行去噪处理，得到去噪处理后的音频数据；其中，预设音频信号可以表示为门函数，用于滤除音频中的噪声。若存在多个预设音频信号，那么，基于至少一个预设音频信号对特定音频帧进行去噪处理，得到去噪处理后的音频数据的具体实施方式可以为：根据特定音频帧对应的噪声频率从多个预设音频信号中选取适
用于特定音频帧的目标预设音频信号，根据目标预设音频信号对特定音频帧进行去噪处理，得到去噪处理后的音频数据。
[0089]
可见，实施该可选的实施例，能够实现音频去噪，提升音频的纯净程度，降低噪声对于用户语音段检测精度的影响，从而实现对于用户语音段和非用户语音段的准确判别。
[0090]
在步骤s320中，根据预设关键帧规则确定多个音频片段中各音频片段的关键帧。
[0091]
其中，预设关键帧规则可以用于限定对于关键帧的至少一个选择条件，也可以用于限定各音频片段中的关键帧数量以及关键帧位置。举例来说，音频片段的数量为3个，分别为音频片段a、音频片段b、音频片段c，基于预设关键帧规则可以从音频片段a中确定出关键帧a，从音频片段b中确定出关键帧b，从音频片段c中确定出关键帧c。此外，可选的，若预设关键帧规则限定了各音频片段中的关键帧数量为n，那么，根据预设关键帧规则确定多个音频片段中各音频片段的关键帧的具体实施方式可以为：根据预设关键帧规则分别从每个音频片段中确定出n个关键帧；其中，n为正整数。此外，可选的，若预设关键帧规则限定了各音频片段中的关键帧位置(如，第一帧的位置)，那么，根据预设关键帧规则确定多个音频片段中各音频片段的关键帧的具体实施方式可以为：根据预设关键帧规则确定多个音频片段中的关键帧位置；将该关键帧位置对应的关键帧确定为相应的音频片段对应的关键帧。
[0092]
可选的，根据预设关键帧规则确定多个音频片段中各音频片段的关键帧，包括：根据预设关键帧规则将各音频片段中的第一帧分别确定为相应音频片段的关键帧。
[0093]
在步骤s330中，根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段。
[0094]
其中，多个音频片段中存在至少一个音频片段包含用户语音。
[0095]
作为步骤s330的具体实施方式，根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段，包括：根据预设字节数量对各音频片段的关键帧进行字节级切分，得到各关键帧对应的字节组集合；其中，字节组集合中的各字节组均包含多个字节，各字节组对应于相同的字节数量；根据各关键帧对应的字节组集合从多个音频片段中确定包含用户语音的语音片段。
[0096]
其中，每个关键帧对应的字节组集合中可以包括多个字节组，每个字节组中包含的字节数量满足上述的预设字节数量。举例来说，关键帧a对应的字节组集合中可以包括80个字节组，每个字节组中包含2个字节。
[0097]
可见，实施该可选的实施例，能够从字节级别判定一个音频片段中是否包含用户语音，这样可以使得判定结果的精度更高。
[0098]
进一步地，根据各关键帧对应的字节组集合从多个音频片段中确定包含用户语音的语音片段，包括：将各字节组集合进行集合内的帧级别重组，得到各音频片段分别对应的重组帧；对各音频片段分别对应的重组帧进行语音检测，得到各音频片段分别对应的语音检测结果；其中，语音检测结果用于表征目标音频片段与用户语音之间的关系，目标音频片段为各音频片段中任一音频片段；根据各音频片段分别对应的语音检测结果确定包含用户语音的语音片段。
[0099]
其中，将各字节组集合进行集合内的帧级别重组，得到各音频片段分别对应的重组帧的方式具体可以为：将各字节组集合内的字节组按照预设规则转换为短整型指针，得到各字节组集合分别对应的短整型指针集合，将各短整型指针集合组合为重组帧，得到各
音频片段分别对应的重组帧。举例来说，预设规则可以实现为：short＝(bytes[i*2+1]《《8)|(bytes[i*2]&0xff)。
[0100]
基于此，对各音频片段分别对应的重组帧进行语音检测，得到各音频片段分别对应的语音检测结果，包括：将重组帧输入语音检测模块，以使得语音检测模块(如，webrtcvad检测模块)基于重组帧检测各音频片段中是否包含用户语音，即得到各音频片段分别对应的语音检测结果。
[0101]
可见，实施该可选的实施例，相较于现有技术中直接将字节流转换为短整型指针，可以先将字节流组合为字节组，再将字节组转换为短整型指针，再基于短整型指针进行帧重组，避免破环语音帧短时平稳态的特点，以基于语音信号的短时平稳态进行语音检测，提升语音检测的精度。
[0102]
更进一步地，语音片段包括一类语音片段和二类语音片段，根据各音频片段分别对应的语音检测结果确定包含用户语音的语音片段，包括：确定与目标音频片段在时间上连续的前一音频片段；若前一音频片段的语音检测结果与目标音频片段的语音检测结果均表示包含用户语音，则判定前一音频片段和目标音频片段之间不存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段；若前一音频片段的语音检测结果表示不包含用户语音，目标音频片段的语音检测结果表示包含用户语音，则判定前一音频片段和目标音频片段之间存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段。
[0103]
此外，还包括：若前一音频片段的语音检测结果表示包含用户语音，目标音频片段的语音检测结果表示不包含用户语音，则判定前一音频片段和目标音频片段之间存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段。这样可以避免漏检用户语音。
[0104]
此外，还包括：若前一音频片段的语音检测结果与目标音频片段的语音检测结果均表示不包含用户语音，则判定前一音频片段和目标音频片段之间不存在语音状态变化，并将目标音频片段和前一音频片段确定为不包含用户语音的音频片段。
[0105]
可见，实施该可选的实施例，能够基于多个语音片段进行连续语音检测，相较于对整个音频文件进行语音检测，可以减少无关计算量，提升对于包含连续语音的片段的判别效率，当应用于人机通话场景时，可以缩短用户的等待时长，改善用户的通话体验。
[0106]
在步骤s340中，对语音片段进行语义识别，并基于语义识别结果匹配相应的语音回复。
[0107]
其中，语音片段的数量可以为一个或多个，语音回复可以由一句或多句话组成。
[0108]
作为步骤s340的具体实施方式，对语音片段进行语义识别，包括：每识别出一个语音片段，则执行对语音片段进行语义识别的步骤。
[0109]
或者，作为步骤s340的具体实施方式，对语音片段进行语义识别，包括：若存在时间上连续的语音片段，则将时间上连续的语音片段合并为待识别语音；将待识别语音转换为文本信息，并对文本信息进行语义识别，得到语义识别结果。
[0110]
其中，时间上连续的语音片段可以理解为时间上相邻的多个语音片段，例如，若语音片段1为00：00-00：19、语音片段2为00：20-00：29、语音片段3为00：30-00：39，则可以判定语音片段1、语音片段2、语音片段3在时间上连续。进而，可以将语音片段1、语音片段2、语音
片段3合并为待识别语音，待识别语音对应的时间段可以为00：00-00：39。
[0111]
可选的，将待识别语音转换为文本信息，包括：提取待识别语音中的语音特征，根据语音特征与预设语音特征进行比对，根据预设语音特征识别语音特征对应的文字，将识别出的文字组合为文本信息。
[0112]
进而，可选的，对文本信息进行语义识别，得到语义识别结果，包括：对文本信息中提取每个字的子向量；按照字顺序并基于子向量之间的相关度识别字之间的相关程度，根据字之间的相关程度对文本信息进行切分；进而根据切分结果识别文本信息中每个词的词性；进而根据每个词的词性和文本信息生成语义识别结果。
[0113]
可见，实施该可选的实施例，能够只对包含了用户语音的语音片段进行语义识别，可以有效缩短语义识别时长，提升语义识别效率。
[0114]
请参阅图5，图5示意性示出了根据本技术的一个实施例的语音活动检测系统的结构示意图。该语音活动检测系统500可以实现于windows或linux等平台。此外，语音活动检测系统500可以应用于人机通话场景，接收到的音频数据可以包括通话过程中的用户语音，在通话过程中依据的会话控制协议可以为sip协议，依据的媒体传输协议可以为rtp协议。
[0115]
语音活动检测系统500具体可以包括：语音接收预处理模块510、语音活动检测模块520、智能客服模块530，语音合成模块540、语音识别模块550和语义分析处理模块560。
[0116]
语音接收预处理模块510，用于在检测到用户呼叫特服号码(如，10000)进入语音活动检测系统500时，可以建立通信会话(session)并注册与通信会话对应的通信回调函数，初始化与通信会话对应的通信参数，其中，通信参数可以包括：初始的语音活动状态(如，0或1)、最小通信时长(min_speak_ms)，最小静音时长(min_pause_ms)、最长说话时长(max_recording_ms)等，本技术实施例不作限定。其中的初始的语音活动状态可以用于表征预设初始音频中包含/不包含用户语音。
[0117]
语音接收预处理模块510，还用于接收由终端设备发出的满足预设编码格式(如，pcmu(g.711u-law)、pcma(g.711a-law)或opus)的音频数据；当接收到音频数据时，将音频数据切分为多个音频片段，并根据预设关键帧规则确定多个音频片段中各音频片段的关键帧。其中，将音频数据切分为多个音频片段可以基于语音活动检测技术(voice activity detection，vad)执行。
[0118]
语音接收预处理模块510，还用于监测打断事件，当检测到打断事件发生时，可以根据从预设响应预案中选取一预设响应预案并执行该预设响应预案；其中，打断事件用于表示智能客服在用户说话过程中输出音频打断用户说话。
[0119]
语音活动检测模块520，用于根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段。
[0120]
语音识别模块550，用于将时间上连续的语音片段合并为待识别语音，将待识别语音转换为文本信息；或者，针对每个语音片段进行语音识别，得到相应语音片段的文本信息。
[0121]
语义分析处理模块560，用于对文本信息进行语义识别，得到语义识别结果。
[0122]
语音合成模块540，用于基于语义识别结果生成相应的语音回复。
[0123]
智能客服模块530，用于输出上述语音回复。
[0124]
可见，实施图5所示的系统，可以对音频数据进行切分，并基于每个音频片段中的
关键帧确定音频数据中包含用户语音的语音片段，进而可以对包含用户语音的语音片段进行语义识别，提升对于计算资源的利用率以及语义识别效率。此外，还可以降低人工成本，实现电话客服的智能化和自动化。
[0125]
请参阅图6，图6示意性示出了根据本技术的一个实施例的语音活动检测方法的流程图。如图6所示，语音活动检测方法可以包括如下步骤。
[0126]
s600：当接收到音频数据时，检测音频数据中包含噪声的特定音频帧，并基于至少一个预设音频信号对特定音频帧进行去噪处理，得到去噪处理后的音频数据。
[0127]
s602：将音频数据切分为多个音频片段。
[0128]
s604：根据预设关键帧规则确定多个音频片段中各音频片段的关键帧。
[0129]
s606：根据预设字节数量对各音频片段的关键帧进行字节级切分，得到各关键帧对应的字节组集合；其中，字节组集合中的各字节组均包含多个字节，各字节组对应于相同的字节数量。
[0130]
s608：将各字节组集合进行集合内的帧级别重组，得到各音频片段分别对应的重组帧。
[0131]
s610：对各音频片段分别对应的重组帧进行语音检测，得到各音频片段分别对应的语音检测结果；其中，语音检测结果用于表征目标音频片段与用户语音之间的关系，目标音频片段为各音频片段中任一音频片段。
[0132]
s612：确定与目标音频片段在时间上连续的前一音频片段。
[0133]
s614：若前一音频片段的语音检测结果与目标音频片段的语音检测结果均表示包含用户语音，则判定前一音频片段和目标音频片段之间不存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段。
[0134]
s616：若前一音频片段的语音检测结果表示不包含用户语音，目标音频片段的语音检测结果表示包含用户语音，则判定前一音频片段和目标音频片段之间存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段。
[0135]
s618：若前一音频片段的语音检测结果与目标音频片段的语音检测结果均表示不包含用户语音，则判定前一音频片段和目标音频片段之间不存在语音状态变化，并将目标音频片段和前一音频片段确定为静默片段。
[0136]
s620：若前一音频片段的语音检测结果表示包含用户语音，目标音频片段的语音检测结果表示不包含用户语音，则判定前一音频片段和目标音频片段之间存在语音状态变化。
[0137]
s622：检测音频数据中的多个音频片段是否均作为目标音频片段进行语音检测。如果是，则执行步骤s624；如果否，则执行步骤s612。
[0138]
s624：若存在时间上连续的语音片段，则将时间上连续的语音片段合并为待识别语音。
[0139]
s626：将待识别语音转换为文本信息，并对文本信息进行语义识别，得到语义识别结果。
[0140]
s628：根据语义识别结果匹配相对应的待回复消息并输出待回复消息。
[0141]
需要说明的是，步骤s600～步骤s628与图3所示的各步骤及其实施例相对应，针对步骤s600～步骤s628的具体实施方式，请参阅图3所示的各步骤及其实施例，此处不再赘
述。
[0142]
可见，实施图6所示的方法，可以对音频数据进行切分，并基于每个音频片段中的关键帧确定音频数据中包含用户语音的语音片段，进而可以对包含用户语音的语音片段进行语义识别，提升对于计算资源的利用率以及语义识别效率。此外，还可以降低人工成本，实现电话客服的智能化和自动化。
[0143]
进一步的，本示例实施方式中，还提供了一种语音活动检测装置。参考图7所示，该语音活动检测装置700可以包括：
[0144]
音频切分单元701，用于当接收到音频数据时，将音频数据切分为多个音频片段；
[0145]
关键帧确定单元702，用于根据预设关键帧规则确定多个音频片段中各音频片段的关键帧；
[0146]
语音片段确定单元703，用于根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段；
[0147]
语义识别单元704，用于对语音片段进行语义识别，并基于语义识别结果匹配相应的语音回复。
[0148]
其中，预设关键帧规则用于限定各音频片段中的关键帧数量以及关键帧位置。
[0149]
可见，实施图7所示的装置，可以对音频数据进行切分，并基于每个音频片段中的关键帧确定音频数据中包含用户语音的语音片段，进而可以对包含用户语音的语音片段进行语义识别，提升对于计算资源的利用率以及语义识别效率。此外，还可以降低人工成本，实现电话客服的智能化和自动化。
[0150]
在本技术的一种示例性实施例中，上述装置还包括：
[0151]
去噪单元(未图示)，用于在音频切分单元701将音频数据切分为多个音频片段之前，检测音频数据中包含噪声的特定音频帧；基于至少一个预设音频信号对特定音频帧进行去噪处理，得到去噪处理后的音频数据。
[0152]
可见，实施该可选的实施例，能够实现音频去噪，提升音频的纯净程度，降低噪声对于用户语音段检测精度的影响，从而实现对于用户语音段和非用户语音段的准确判别。
[0153]
在本技术的一种示例性实施例中，语音片段确定单元703根据各音频片段的关键帧从多个音频片段中确定包含用户语音的语音片段，包括：
[0154]
根据预设字节数量对各音频片段的关键帧进行字节级切分，得到各关键帧对应的字节组集合；其中，字节组集合中的各字节组均包含多个字节，各字节组对应于相同的字节数量；
[0155]
根据各关键帧对应的字节组集合从多个音频片段中确定包含用户语音的语音片段。
[0156]
可见，实施该可选的实施例，能够从字节级别判定一个音频片段中是否包含用户语音，这样可以使得判定结果的精度更高。
[0157]
在本技术的一种示例性实施例中，语音片段确定单元703根据各关键帧对应的字节组集合从多个音频片段中确定包含用户语音的语音片段，包括：
[0158]
将各字节组集合进行集合内的帧级别重组，得到各音频片段分别对应的重组帧；
[0159]
对各音频片段分别对应的重组帧进行语音检测，得到各音频片段分别对应的语音检测结果；其中，语音检测结果用于表征目标音频片段与用户语音之间的关系，目标音频片
段为各音频片段中任一音频片段；
[0160]
根据各音频片段分别对应的语音检测结果确定包含用户语音的语音片段。
[0161]
可见，实施该可选的实施例，相较于现有技术中直接将字节流转换为短整型指针，可以先将字节流组合为字节组，再将字节组转换为短整型指针，再基于短整型指针进行帧重组，避免破环语音帧短时平稳态的特点，以基于语音信号的短时平稳态进行语音检测，提升语音检测的精度。
[0162]
在本技术的一种示例性实施例中，语音片段包括一类语音片段和二类语音片段，语音片段确定单元703根据各音频片段分别对应的语音检测结果确定包含用户语音的语音片段，包括：
[0163]
确定与目标音频片段在时间上连续的前一音频片段；
[0164]
若前一音频片段的语音检测结果与目标音频片段的语音检测结果均表示包含用户语音，则判定前一音频片段和目标音频片段之间不存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段；
[0165]
若前一音频片段的语音检测结果表示不包含用户语音，目标音频片段的语音检测结果表示包含用户语音，则判定前一音频片段和目标音频片段之间存在语音状态变化，并将目标音频片段和前一音频片段确定为包含用户语音的语音片段。
[0166]
可见，实施该可选的实施例，能够基于多个语音片段进行连续语音检测，相较于对整个音频文件进行语音检测，可以减少无关计算量，提升对于包含连续语音的片段的判别效率，当应用于人机通话场景时，可以缩短用户的等待时长，改善用户的通话体验。
[0167]
在本技术的一种示例性实施例中，语义识别单元704对语音片段进行语义识别包括：
[0168]
在存在时间上连续的语音片段时，将时间上连续的语音片段合并为待识别语音；
[0169]
将待识别语音转换为文本信息，并对文本信息进行语义识别，得到语义识别结果。
[0170]
可见，实施该可选的实施例，能够只对包含了用户语音的语音片段进行语义识别，可以有效缩短语义识别时长，提升语义识别效率。
[0171]
应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0172]
由于本技术的示例实施例的语音活动检测装置的各个功能模块与上述语音活动检测方法的示例实施例的步骤对应，因此对于本技术装置实施例中未披露的细节，请参照本技术上述的语音活动检测方法的实施例。
[0173]
作为另一方面，本技术还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。
[0174]
需要说明的是，本技术所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计
算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0175]
附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0176]
描述于本技术实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0177]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求指出。
[0178]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。