首页 > 乐器声学 专利正文
跨信道声纹识别方法、装置、设备和存储介质与流程

时间:2022-02-17 阅读: 作者:专利查询

跨信道声纹识别方法、装置、设备和存储介质与流程

1.本发明涉及地统计方法领域,尤其涉及一种跨信道声纹识别方法、装置、电子设备和非暂态计算机可读存储介质。


背景技术:

2.近年来,随着声纹识别技术的深入研究,在单一信道条件下,声纹识别系统已取得了令人满意的性能表现。然而,在实际应用中,语音信号可以通过不同的信道进行传输,例如网络信道、电话信道等。这种信道差异将对语音信号产生不同程度的畸变,影响声纹识别系统性能。例如,在注册阶段,用户语音由网络信道采集;在识别阶段,用户语音由电话信道采集。此时,由于信道失配,声纹识别性能将大幅下降。考虑到声纹认证场景的多样性,单一信道的声纹识别技术将极大地限制声纹技术的推广应用。
3.为此,如何克服信道变化对识别性能的影响,提升声纹识别系统在跨信道情况下的识别性能是当前亟需解决的技术问题。


技术实现要素:

4.本发明提供一种跨信道声纹识别方法、装置、电子设备和非暂态计算机可读存储介质,用以解决当前技术中跨信道声纹识别困难的问题,提高跨信道声纹识别的准确性。
5.本发明提供一种跨信道声纹识别方法,包括:获取待识别声纹音频数据,其中,所述待识别声纹音频数据采集于设定信道集合中的信道,所述设定信道集合中包括至少两种不同信道;将所述待识别声纹音频数据输入预置的跨信道声纹识别模型,得到声纹音频数据处理结果,以根据所述声纹音频数据处理结果进行声纹音频数据识别;其中,所述跨信道声纹识别模型采用所述设定信道集合中采集的声纹音频数据经过多次迭代过程训练得到,在每一次迭代过程中采用两种不同信道中采集的声纹音频数据进行模型参数训练。
6.根据本发明提供的一种跨信道声纹识别方法,还包括对所述跨信道声纹识别模型的训练过程,所述训练过程包括:获取采集于所述设定信道集合中的样本声纹音频数据集,所述设定信道集合中包括第一信道和第二信道,所述样本声纹音频数据集中的样本声纹音频数据采集于所述至少两种不同信道;选取一种信道中的样本声纹音频数据,计算其在自身对应的信道中的第一损失函数以及更新中间参数,并基于更新后的中间参数以及所述第一损失函数,选取所述一种信道之外的另一种信道中的样本声纹音频数据,计算其在自身对应的信道中的第二损失函数以及更新模型参数,完成一次迭代过程;重新选取样本声纹音频数据进行迭代过程,直到所述第二损失函数收敛,得到所述跨信道声纹识别模型。
7.根据本发明提供的一种跨信道声纹识别方法,所述至少两种不同信道包括以下信道分类中的至少一种类别:无线信道、有线信道和存储信道。
8.根据本发明提供的一种跨信道声纹识别方法,所述待识别声纹音频数据包括采集于第一信道的第一数据和采集于第二信道的第二数据;所述得到声纹音频数据处理结果之后,所述方法还包括:根据所述第一数据对应的声纹音频数据处理结果和所述第二数据对
应的声纹音频数据处理结果获取所述第一数据和第二数据的相似关系;根据所述相似关系与设定的第一阈值的大小关系,识别所述第一数据和所述第二数据是否来自于同一发音者。
9.根据本发明提供的一种跨信道声纹识别方法,所述待识别声纹音频数据包括采集于第一信道的第三数据;所述得到声纹音频数据处理结果之后,所述方法还包括:根据所述第三数据对应的声纹音频数据处理结果和声纹库中的在库数据获取所述第三数据与所述在库数据的相似关系,其中,所述在库数据根据采集于第二信道的声纹音频数据得到;根据所述相似关系在所述在库数据中选取与所述第三数据相似度最大的第四数据;根据所述第三数据与所述第四数据的相似度与设定的第二阈值的大小关系,识别所述第三数据和所述第四数据是否来自于同一发音者。
10.根据本发明提供的一种跨信道声纹识别方法,所述相似关系根据计算余弦距离或者进行概率线性判别分析获取。
11.根据本发明提供的一种跨信道声纹识别方法,在每一次迭代过程中,按照以下公式更新中间参数:其中,是在信道上的损失函数,是采集于信道上的声纹音频数据,为局部更新的学习率,为的变化量;按照以下公式更新模型参数至:其中,,是在信道上的损失函数,是采集于信道上的声纹音频数据,为全局更新的学习率。
12.本发明提供一种跨信道声纹识别装置,包括:获取单元,用于获取待识别声纹音频数据,其中,所述待识别声纹音频数据采集于设定信道集合中的信道,所述设定信道集合中包括至少两种不同信道;识别单元,用于将所述待识别声纹音频数据输入预置的跨信道声纹识别模型,得到声纹音频数据处理结果,以根据所述声纹音频数据处理结果进行声纹音频数据识别;其中,所述跨信道声纹识别模型采用所述设定信道集合中采集的声纹音频数据经过多次迭代过程训练得到,在每一次迭代过程中采用两种不同信道中采集的声纹音频数据进行模型参数训练。
13.根据本发明提供的一种跨信道声纹识别装置,还包括用于对所述跨信道声纹识别模型进行训练过程的训练单元,所述训练单元包括:第一获取子单元,用于获取采集于所述设定信道集合中的样本声纹音频数据集,所述样本声纹音频数据集中的样本声纹音频数据采集于所述至少两种不同信道;迭代子单元,用于选取一种信道中的样本声纹音频数据,计算其在自身对应的信道中的第一损失函数以及更新中间参数,并基于更新后的中间参数以及所述第一损失函数,选取所述一种信道之外的另一种信道中的样本声纹音频数据,计算其在自身对应的信道中的第二损失函数以及更新模型参数,完成一次迭代过程,以及重新选取样本声纹音频数据进行迭代过程,直到所述第二损失函数收敛,得到所述跨信道声纹识别模型。
14.根据本发明提供的一种跨信道声纹识别装置,所述至少两种不同信道包括以下信
道分类中的至少一种类别:无线信道、有线信道和存储信道。
15.根据本发明提供的一种跨信道声纹识别装置,所述待识别声纹音频数据包括采集于所述第一信道的第一数据和采集于所述第二信道的第二数据;所述装置还包括第一相似关系判断单元,用于:在所述得到声纹音频数据处理结果之后,根据所述第一数据对应的声纹音频数据处理结果和所述第二数据对应的声纹音频数据处理结果获取所述第一数据和第二数据的相似关系;根据所述相似关系与设定的第一阈值的大小关系,识别所述第一数据和所述第二数据是否来自于同一发音者。
16.根据本发明提供的一种跨信道声纹识别装置,所述待识别声纹音频数据包括采集于所述第一信道的第三数据;所述装置还包括第二相似关系判断单元,用于:根据所述第三数据对应的声纹音频数据处理结果和声纹库中的在库数据获取所述第三数据与所述在库数据的相似关系,其中,所述在库数据根据采集于所述第二信道的声纹音频数据得到;根据所述相似关系在所述在库数据中选取与所述第三数据相似度最大的第四数据;根据所述第三数据与所述第四数据的相似度与设定的第二阈值的大小关系,识别所述第三数据和所述第四数据是否来自于同一发音者。
17.根据本发明提供的一种跨信道声纹识别装置,所述迭代单元还用于:在每一次迭代过程中,按照以下公式更新中间参数:其中,是在信道上的损失函数,是采集于信道上的声纹音频数据,为局部更新的学习率,为的变化量;按照以下公式更新模型参数至:其中,,是在信道上的损失函数,是采集于信道上的声纹音频数据,为全局更新的学习率。
18.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述跨信道声纹识别方法的步骤。
19.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述跨信道声纹识别方法的步骤。
20.本发明提供的跨信道声纹识别方法、装置、电子设备和非暂态计算机可读存储介质,通过采用两种不同信道中采集的声纹音频数据进行每一次迭代过程的模型训练,可以得到适应于不同信道的跨信道声纹识别模型,使用本发明跨信道声纹识别模型就可以对待识别声纹音频数据进行较为准确的识别。
附图说明
21.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本发明提供的跨信道声纹识别方法的流程示意图;图2是本发明提供的跨信道声纹识别模型的训练过程的流程示意图;图3是本发明提供的两次迭代过程的流程示意图;图4是本发明提供的跨信道声纹识别装置的结构示意图;图5是本发明提供的电子设备的结构示意图。
具体实施方式
23.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.在本发明一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明一个或多个实施例。在本发明一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本发明一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
25.应当理解,尽管在本发明一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
26.以下对本发明实施例中的技术名词进行解释:声纹:语音信号中的一类信息,是对语音信号中所蕴含的能表征说话人身份的语音特征以及基于这些特征所建立的语音模型的总称。由于不同说话人在讲话时所使用的发声器官,如舌头、口腔、鼻腔、声带、肺等在尺寸和形态等方面均有所不同,再考虑到不同说话人在年龄、性格、语言习惯等因素上的差异,使得不同说话人的发音容量和发音频率等特性大不相同。可以说,任何两个人的声纹图谱都不完全相同。
27.声纹识别:又称说话人识别,是根据语音信号中能够表征说话人个性信息的声纹特征,利用计算机以及各种信息识别技术,自动地实现说话人身份识别的一种生物特征识别技术。声纹识别本质上是一类模式识别问题。一个典型的声纹识别系统通常由注册和识别两个阶段构成。其中,注册试将将用户预留语音训练成为说话人模型,识别是判断一个未知语音是否来自指定说话人。
28.在相关技术中,传统声纹识别技术是基于统计概率模型的,其中最为经典的是高斯混合模型

通用背景模型(gmm

ubm)架构。为了进一步提升在有限数据下的说话人特性的表达能力,各种子空间模型被相继提出,其中最著名的是i

vector模型。i

vector模型引入了一个重要概念:说话人表征向量(speaker embedding),即用一个固定长度的连续向量表征说话人特性。
29.近些年,基于深度学习方法,研究者们先后提出了一系列声纹识别模型方法,如:d

vector模型、x

vector模型等。这类模型将一个随机时长的语音信号映射成一个固定长
度的连续向量,称为深度说话人表征向量(deep speaker embedding)。通过这些说话人表征向量,构造一个描述说话人特性的空间;在这个空间中,可以实现声纹识别的打分与判决。
30.对于上述主流的说话人模型,其训练目标通常是最大化区分不同说话人,而并未考虑信道扰动,使之在跨信道任务上难以有效。为了解决跨信道问题,研究者开展了一系列研究。这类研究主要分为两个领域,一类是信道自适应;另一类是信道泛化。对于信道自适应,其基本思想是将信道a经过某个映射函数投影到信道b中,并在信道b上完成注册和识别;对于信道泛化,其基本思想是学习一个与信道无关的空间,将信道a和信道b均投影到该空间中,并完成注册和识别。
31.考虑到信道扰动,跨信道声纹识别的技术方案难以做到较高的识别精度。
32.为解决该问题,本发明实施例提供一种跨信道声纹识别方案。该方案是一种信道鲁棒性优化方法,可以提高声纹识别系统的信道泛化性,从而解决跨信道识别问题。本发明实施例的技术方案属于第二类信道泛化领域。
33.下面结合附图对本发明示例实施方式进行详细说明。
34.如图1所示的是本发明实施例的跨信道声纹识别方法的流程图。本发明实施例提供的方法可以由任意具备计算机处理能力的电子设备执行,例如终端或服务器。如图1所示,该跨信道声纹识别方法包括:步骤102,获取待识别声纹音频数据,其中,待识别声纹音频数据采集于设定信道集合中的信道,设定信道集合中包括至少两种不同信道。
35.具体地,上述至少两种信道可以为传输媒质不同的第一信道和第二信道。
36.步骤104,将待识别声纹音频数据输入预置的跨信道声纹识别模型,得到声纹音频数据处理结果,以根据声纹音频数据处理结果进行声纹音频数据识别;其中,跨信道声纹识别模型采用设定信道集合中采集的声纹音频数据经过多次迭代过程训练得到,在每一次迭代过程中采用两种不同信道中采集的声纹音频数据进行模型参数训练。
37.具体地,跨信道声纹识别模型是一种深度神经网络模型。数据处理结果为跨信道声纹识别模型输出的待识别声纹音频数据的特征向量,在待识别声纹音频数据为声纹音频数据时,声纹音频数据处理结果为说话人表征向量。根据该特征向量或该说话人表征向量,即可以在描述说话人特性的空间中进行两两声纹音频数据之间的比对或者当前输入声纹与在库声纹的比对。
38.在本发明实施例中,在跨信道声纹识别模型的训练过程中,通过的每一个迭代部分都采用两种不同的信道中的声纹音频数据进行训练,可以较好地实现信道泛化,从而在跨信道声纹识别时具有较高的准确率。
39.在步骤104之前,还包括对跨信道声纹识别模型的训练过程,如图2所示,训练过程包括:步骤201,获取采集于设定信道集合中的样本声纹音频数据集,样本声纹音频数据集中的样本声纹音频数据采集于至少两种不同信道。
40.步骤202,选取样本声纹音频数据进行迭代,具体地,选取一种信道中的样本声纹音频数据,计算其在自身对应的信道中的第一损失函数以及更新中间参数,并基于更新后的中间参数以及第一损失函数,选取一种信道之外的另一种信道中的样本声纹音频数据,
计算其在自身对应的信道中的第二损失函数以及更新模型参数,完成一次迭代过程。
41.步骤203,判断第二损失函数是否收敛,若是,执行步骤204,若否,执行步骤202。
42.步骤204,得到跨信道声纹识别模型。
43.在步骤202中,更新中间参数的操作为模型参数更新的局部更新阶段,更新模型参数的操作为模型参数更新的全局更新阶段。这两个阶段的训练数据来自于不同的信道。
44.在本发明实施例中,至少两种不同信道包括以下信道分类中的至少一种类别:无线信道、有线信道和存储信道。
45.其中,两种不同信道可以为同一类别信道中的不同信道,例如,有线信道中的两种不同传输媒质的信道,或者不同类别的两种信道,例如,一种为有线信道,一种为无线信道。
46.在一种实施例中,两个阶段的训练数据分别来自两个不同的信道。其中,表示来自信道和信道的数据集。和是信道和信道的子集。为所训练模型的模型参数。
47.在每一次迭代过程中,按照以下公式更新中间参数:其中,即,其为是在信道上的损失函数,是采集于信道上的声纹音频数据,为局部更新的学习率,为的变化量。
48.按照以下公式更新模型参数至;其中,,即,其为在信道上的损失函数,是采集于信道上的声纹音频数据,为全局更新的学习率。
49.在该技术方案中,模型参数仅在全局更新时完成了更新,而局部更新计算得到的仅是作为全局更新计算梯度的中间参数。
50.在步骤104之前,需要对待识别声纹音频数据进行预处理,在待识别声纹音频数据为声纹音频数据时,该预处理操作可以为降噪操作或静音段数据去除操作,也可以同时进行降噪操作或者静音段数据去除操作。
51.在声纹识别技术中,可以比较两个声纹音频数据是否为同一个发声者,即进行一对一确认;也可以从多个声纹音频数据中辨认与当前声纹音频数据同一个发声者的声纹音频数据,即一对多辨认。
52.在本发明一种实施例中,待识别声纹音频数据包括采集于第一信道的第一数据和采集于第二信道的第二数据;步骤104之后,可以进行声纹音频数据的一对一确认,具体地,根据第一数据对应的声纹音频数据处理结果和第二数据对应的声纹音频数据处理结果获取第一数据和第二数据的相似关系;根据相似关系与设定的第一阈值的大小关系,识别第一数据和第二数据是否来自于同一发音者。
53.该实施例可以用于对同一确定用户的不同信道下采集的声纹音频数据的一对一
确认。例如,在手机端采集的用户的声纹音频数据与在其它设备采集的同一用户的声纹音频数据的对比确认。
54.在本发明另一种实施例中,待识别声纹音频数据包括采集于第一信道的第三数据;步骤104之后,可以进行声纹音频数据的辨认,具体地,根据第三数据对应的声纹音频数据处理结果和声纹库中的在库数据,获取第三数据与在库数据的相似关系,其中,在库数据根据采集于第二信道的声纹音频数据得到;根据相似关系在在库数据中选取与第三数据相似度最大的第四数据;根据第三数据与第四数据的相似度与设定的第二阈值的大小关系,识别第三数据和第四数据是否来自于同一发音者。
55.其中,声纹库存储有第二信道的多个不同发声者的声纹音频数据。该实施例可以用于对一不确定用户的不同信道下采集的声纹音频数据的一对多辨认。例如,在手机端采集的某一用户声纹音频数据与在其它设备采集的在库数据的对比辨认。
56.相似关系可以根据计算余弦距离或者进行概率线性判别分析获取。其中,采用余弦距离算法计算相似度的方案较为简单,概率线性判别分析算法等后端算法稍微复杂,但是具有更高的计算精确度。
57.本发明实施例所提出的信道鲁棒性优化方法在跨信道下具有较大优势。
58.对公式进行一阶泰勒展开得到:假设对信道和信道在训练过程中的先后顺序不做限制,则有下式:其中,和分别来自信道和,且。
59.在公式(2)中,等式右边的第一项等价于将数据集中各个信道数据的损失值累积起来,相当于是多个信道混合训练的损失值。等式右边第二项则可视为一个正则项,其为损失函数在不同信道上梯度的内积。
60.在模型训练时,优化目标是最小化损失函数。显然,对等式右边第一项的优化,使得模型参数逐渐收敛;在第一项收敛的同时,等式右边第二项则保证不同信道的梯度方向尽可能一致,即方向一致,内积最大。这意味着优化该目标函数将一方面保证在各个信道上识别性能优化,另一方面还保证在各个信道上性能优化具有一致性。
61.以下,以网络信道16khz语音数据和电话信道8khz语音数据为例,展示本发明的训练和测试流程。
62.如图3所示的迭代过程示意图中,展示了两轮迭代过程。其中,分别为每一轮迭代中的模型参数,实线箭头表示每一轮迭代的参数更新方向。如图中虚线箭头所示,第一轮训练包括局部更新和全局更新两步,第一步局部更新使用8khz信道数据,第二步全局更新使用16khz信道数据;类似地,在第二轮训练中,第一步局部更新使用16khz信道数据,第二步全局更新使用8khz信道数据。经过若干轮训练,得到最终优化后的模型参数。
63.在测试阶段,可以将网络信道16khz语音数据和电话信道8khz语音数据分别通过该模型映射到同一个参数空间中,并在该空间完成注册和确认识别。
64.在本发明实施例的一个应用信道中,用户通过移动终端的应用程序注册声纹,再通过呼叫中心咨询业务。在此过程中,商户业务系统使用声纹识别来对用户身份进行认证来保障业务安全。在该过程中,通过移动终端网络信道采集的采样率为16khz的语音,而通过电话信道采集的采样率为8khz的语音,这两个语音的比对属于跨信道比对,也即跨信道识别。
65.在发明实施例的技术方案训练过程简单,可以轻松地迁移到各类深度学习框架中。此外,不仅保证了各个信道自身的优化,同时还保证了各个信道的优化具有一致性,避免不同信道之间的优化偏差,防止在某些信道上出现过拟合。
66.如公式(2)可以看出,本方法有着较强的数学理论依据,证明了该方案的有效性。本发明实施例的技术方案不仅适用于声纹识别跨信道问题,还推广到模式识别其它相关应用中,例如,人脸识别等图像识别信道。
67.本发明提供的跨信道声纹识别方法,通过采用两种不同信道中采集的声纹音频数据进行每一次迭代过程的模型训练,可以得到适应于不同信道的跨信道声纹识别模型,使用本发明跨信道声纹识别模型就可以对待识别声纹音频数据进行较为准确的识别。
68.下面对本发明提供的跨信道声纹识别装置进行描述,下文描述的跨信道声纹识别装置与上文描述的跨信道声纹识别方法可相互对应参照。
69.如图4所示,本发明实施例的一种跨信道声纹识别装置,该装置包括:获取单元402,用于获取待识别声纹音频数据,其中,待识别声纹音频数据采集于设定信道集合中的信道,设定信道集合中包括至少两种不同信道。
70.识别单元404,用于将待识别声纹音频数据输入预置的跨信道声纹识别模型,得到声纹音频数据处理结果,以根据声纹音频数据处理结果进行声纹音频数据识别;其中,跨信道声纹识别模型采用设定信道集合中采集的声纹音频数据经过多次迭代过程训练得到,在每一次迭代过程中采用两种不同信道中采集的声纹音频数据进行模型参数训练。
71.在本发明实施例中,还包括用于对跨信道声纹识别模型进行训练过程的训练单元,训练单元包括:第一获取子单元,用于获取采集于设定信道集合中的样本声纹音频数据集,样本声纹音频数据集中的样本声纹音频数据采集于至少两种不同信道;迭代子单元,用于选取一种信道中的样本声纹音频数据,计算其在自身对应的信道中的第一损失函数以及更新中间参数,并基于更新后的中间参数以及第一损失函数,选取一种信道之外的另一种信道中的样本声纹音频数据,计算其在自身对应的信道中的第二损失函数以及更新模型参数,完成一次迭代过程,以及重新选取样本声纹音频数据进行迭代过程,直到第二损失函数收敛,得到跨信道声纹识别模型。
72.在本发明实施例中,待识别声纹音频数据包括采集于第一信道的第一数据和采集于第二信道的第二数据;装置还包括第一相似关系判断单元,用于:在得到声纹音频数据处理结果之后,根据第一数据对应的声纹音频数据处理结果和第二数据对应的声纹音频数据处理结果获取第一数据和第二数据的相似关系;根据相似关系与设定的第一阈值的大小关系,识别第一数据和第二数据是否来自于同一发音者。
73.在本发明实施例中,待识别声纹音频数据包括采集于第一信道的第三数据;装置
还包括第二相似关系判断单元,用于:根据第三数据对应的声纹音频数据处理结果和声纹库中的在库数据获取第三数据与在库数据的相似关系,其中,在库数据根据采集于第二信道的声纹音频数据得到;根据相似关系在在库数据中选取与第三数据相似度最大的第四数据;根据第三数据与第四数据的相似度与设定的第二阈值的大小关系,识别第三数据和第四数据是否来自于同一发音者。
74.在本发明实施例中,至少两种不同信道包括以下信道分类中的至少一种类别:无线信道、有线信道和存储信道。
75.其中,两种不同信道可以为同一类别信道中的不同信道,例如,有线信道中的两种不同传输媒质的信道,或者不同类别的两种信道,例如,一种为有线信道,一种为无线信道。
76.在本发明实施例中,迭代单元还用于:在每一次迭代过程中,按照以下公式更新中间参数:其中,是在信道上的损失函数,是采集于信道上的声纹音频数据,为局部更新的学习率,为的变化量。
77.按照以下公式更新模型参数至:其中,,是在信道上的损失函数,是采集于信道上的声纹音频数据,为全局更新的学习率。
78.由于本发明的示例实施例的跨信道声纹识别装置的各个功能模块与上述跨信道声纹识别方法的示例实施例的步骤对应,因此对于本发明装置实施例中未披露的细节,请参照本发明上述的跨信道声纹识别方法的实施例。
79.本发明提供的跨信道声纹识别装置,通过采用两种不同信道中采集的声纹音频数据进行每一次迭代过程的模型训练,可以得到适应于不同信道的跨信道声纹识别模型,使用该跨信道声纹识别模型就可以对待识别声纹音频数据进行较为准确的识别。
80.图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行跨信道声纹识别方法,该方法包括:获取待识别声纹音频数据,其中,待识别声纹音频数据采集于设定信道集合中的信道,设定信道集合中包括至少两种不同信道;将所述待识别声纹音频数据输入预置的跨信道声纹识别模型,得到声纹音频数据处理结果,以根据所述声纹音频数据处理结果进行声纹音频数据识别;其中,所述跨信道声纹识别模型采用所述设定信道集合中采集的声纹音频数据经过多次迭代过程训练得到,在每一次迭代过程中采用两种不同信道中采集的声纹音频数据进行模型参数训练。
81.此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
82.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的跨信道声纹识别方法,该方法包括:获取待识别声纹音频数据,其中,所述待识别声纹音频数据采集于设定信道集合中的信道,所述设定信道集合中包括至少两种不同信道;将所述待识别声纹音频数据输入预置的跨信道声纹识别模型,得到声纹音频数据处理结果,以根据所述声纹音频数据处理结果进行声纹音频数据识别;其中,所述跨信道声纹识别模型采用所述设定信道集合中采集的声纹音频数据经过多次迭代过程训练得到,在每一次迭代过程中采用两种不同信道中采集的声纹音频数据进行模型参数训练。
83.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的跨信道声纹识别方法,该方法包括:获取待识别声纹音频数据,其中,所述待识别声纹音频数据采集于设定信道集合中的信道,所述设定信道集合中包括至少两种不同信道;将所述待识别声纹音频数据输入预置的跨信道声纹识别模型,得到声纹音频数据处理结果,以根据所述声纹音频数据处理结果进行声纹音频数据识别;其中,所述跨信道声纹识别模型采用所述设定信道集合中采集的声纹音频数据经过多次迭代过程训练得到,在每一次迭代过程中采用两种不同信道中采集的声纹音频数据进行模型参数训练。
84.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
85.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
86.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。