一种基于音色的智能调音方法、装置、介质和计算设备与流程

1.本公开的实施方式涉及声音处理技术领域，更具体地，本公开的实施方式涉及一种基于音色的智能调音方法、装置、介质和计算设备。

背景技术：

2.本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.音色，又称音品，是声音的固有属性之一。声音是通过振动产生的，振动的各项指标决定了声音的性质，比如振动的基准频率就决定了声音的音高，振动的幅度决定了声音的音量，而音色，由振动的泛音决定。
4.具体来说，物体振动发声时，在整体振动发出基准音的同时，同一物体的不同部位也会产生复合的振动，这些局部振动产生的声音就是泛音，这些泛音不断叠加、互相影响，使得声音呈现许多复杂多变的特性，这些特性就被称为音色。
5.调音，是一种通过后期制作调节声音的手段，专业的调音师可以通过调节音色，使声音更加好听，从而制作出更受欢迎的音乐。
6.然而，由于专业的调音师非常稀缺，通常没有空档期，并且收费不菲，导致大多数人很难享受到专业的调音服务。

技术实现要素：

7.为此，非常需要一种简单快捷的面向大众的智能调音方案，既可以基于用户音色实现个性化定制的调音服务，又可以随时随地满足调音需求，并且无需花费高额的成本。
8.在本上下文中，本公开的实施方式期望提供一种基于音色的智能调音方法及装置。
9.在本公开实施方式的第一方面中，提供了一种基于音色的智能调音方法，包括：
10.获取用户的干声作为目标音频；
11.将所述目标音频输入至预先训练完成的深度学习模型，以使所述深度学习模型输出所述目标音频对应的音色特征；
12.将所述目标音频对应的音色特征，以及预设的多个音色模板对应的音色特征，进行相似度计算，并根据相似度计算的结果确定与所述目标音频对应的音色特征相匹配的音色模板；
13.基于匹配到的所述音色模板，确定所述音色模板对应的预设调音参数；
14.根据确定出的所述预设调音参数，为所述用户的干声进行调音处理。
15.在本公开的一个实施例中，在将所述目标音频输入至预先训练完成的深度学习模型之前，所述方法还包括：
16.对所述目标音频进行音量归一化处理。
17.在本公开的一个实施例中，所述对所述目标音频进行音量归一化处理，包括：
18.对所述目标音频对应的音频波形进行整体缩放，将所述音频波形的最大幅值固定为预设值。
19.在本公开的一个实施例中，所述音色模板中还包括音高特征；
20.所述方法还包括：
21.基于预设的音高提取算法提取所述目标音频的音高特征；
22.将所述目标音频的音高特征，与所述预设的多个音色模板对应的音高特征进行比对，根据预设的阈值筛选出与所述目标音频的音高特征相近的所述音色模板。
23.在本公开的一个实施例中，所述基于预设的音高提取算法提取所述目标音频的音高特征，包括：
24.确定所述目标音频的音频帧，计算每一音频帧的音高；
25.判断所述每一音频帧的音高是否满足预设的阈值，如果不满足，删除所述不满足预设的阈值的音频帧；
26.计算剩余音频帧的平均音高，并将所述平均音高作为所述目标音频的音高特征。
27.在本公开的一个实施例中，所述将所述目标音频对应的音色特征，以及预设的多个音色模板对应的音色特征，进行相似度计算，包括：
28.将所述目标音频对应的音色特征，以及筛选出的与所述目标音频的音高特征相近的所述音色模板对应的音色特征，进行相似度计算。
29.在本公开的一个实施例中，所述深度学习模型的训练过程包括：
30.获取标注了不同歌手名称的音频数据集，截取所述音频数据集中特定的音频片段生成梅尔谱；
31.训练以所述梅尔谱为输入，歌手名称为输出的深度学习模型。
32.在本公开的一个实施例中，所述预设的多个音色模板的确定过程包括：
33.获取干声数据的样本数据集；
34.将所述样本数据集输入至所述深度学习模型，以使所述深度学习模型输出所述样本数据集对应的音色特征；
35.计算所述样本数据集对应的音色特征之间的相似度，并根据相似度计算的结果确定出多个样本数据对应的音色特征作为所述预设的多个音色模板。
36.在本公开的一个实施例中，所述获取干声数据的样本数据集，包括：
37.获取干声数据，进行性别筛选，以确定作为所述样本数据集的干声数据。
38.在本公开的一个实施例中，所述计算所述样本数据集对应的音色特征之间的相似度，并根据相似度计算的结果确定出多个样本数据对应的音色特征作为所述预设的多个音色模板，包括：
39.将所述样本数据集对应的音色特征中的任一音色特征，确定为所述预设的多个音色模板中的第一个音色模板；
40.遍历所述样本数据集对应的音色特征中的其他音色特征，执行以下操作：
41.计算当前音色特征与各个被确定为音色模板的音色特征之间的相似度；
42.如果任一相似度计算的结果达到所述预设的阈值，则跳过对所述当前音色特征的判断；
43.如果所有相似度计算的结果均小于预设的阈值，则将所述当前音色特征确定为所
述预设的多个音色模板中又一个音色模板；
44.在所述遍历完成后，将所述确定出的多个音色模板作为所述预设的多个音色模板。
45.在本公开的一个实施例中，所述用户的干声包括所述用户的演唱干声。
46.在本公开实施方式的第二方面中，提供了一种基于音色的智能调音装置，包括：
47.获取模块，获取用户的干声作为目标音频；
48.音色特征提取模块，将所述目标音频输入至预先训练完成的深度学习模型，以使所述深度学习模型输出所述目标音频对应的音色特征；
49.音色特征匹配模块，将所述目标音频对应的音色特征，以及预设的多个音色模板对应的音色特征，进行相似度计算，并根据相似度计算的结果确定与所述目标音频对应的音色特征相匹配的音色模板；
50.调音参数确定模块，基于匹配到的所述音色模板，确定所述音色模板对应的预设调音参数；
51.调音模块，根据确定出的所述预设调音参数，为所述用户的干声进行调音处理。
52.在本公开实施方式的第三方面中，提供了一种介质；其上存储有计算机指令，该指令被处理器执行时实现如下所述方法的步骤：
53.获取用户的干声作为目标音频；
54.将所述目标音频输入至预先训练完成的深度学习模型，以使所述深度学习模型输出所述目标音频对应的音色特征；
55.将所述目标音频对应的音色特征，以及预设的多个音色模板对应的音色特征，进行相似度计算，并根据相似度计算的结果确定与所述目标音频对应的音色特征相匹配的音色模板；
56.基于匹配到的所述音色模板，确定所述音色模板对应的预设调音参数；
57.根据确定出的所述预设调音参数，为所述用户的干声进行调音处理。
58.在本公开实施方式的第四方面中，提供了一种计算设备，包括：
59.处理器；以及，用于存储处理器可执行指令的存储器；
60.其中，所述处理器通过运行所述可执行指令以实现如下所述方法的步骤：
61.获取用户的干声作为目标音频；
62.将所述目标音频输入至预先训练完成的深度学习模型，以使所述深度学习模型输出所述目标音频对应的音色特征；
63.将所述目标音频对应的音色特征，以及预设的多个音色模板对应的音色特征，进行相似度计算，并根据相似度计算的结果确定与所述目标音频对应的音色特征相匹配的音色模板；
64.基于匹配到的所述音色模板，确定所述音色模板对应的预设调音参数；
65.根据确定出的所述预设调音参数，为所述用户的干声进行调音处理。
66.本公开以上的实施方式，至少具有如下的有益效果：
67.通过将用户的干声作为目标音频，输入至训练完成的深度学习模型，可以使深度学习模型输出目标音频对应的音色特征，再通过计算目标音频对应的音色特征与预设的多个音色模板对应的音色特征的相似度，可以确定与目标音频对应的音色特征相匹配的音色
模板，然后基于该音色模板对应的预设调音参数为用户的干声进行调音处理。通过以上技术方案，一方面，可以根据用户的干声对应的音色特征，确定与该音色特征相似的音色模板，将该音色模板对应的调音参数作为该用户的干声的调音参数，为用户提供个性化定制的调音服务；另一方面，可以使用户无需寻找专业的调音师就可以随时随地满足调音需求，只需要上传用户的干声，然后等待智能调音的结果即可，既方便快捷，又无需支付高额的费用。
附图说明
68.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
69.图1示意性地示出了根据本公开实施方式的一种基于音色的智能调音方法的流程图；
70.图2示意性地示出了根据本公开实施方式的一种确定预设的多个音色模板的流程图；
71.图3示意性地示出了根据本公开实施方式的一种确定预设的多个音色模板的示意图；
72.图4示意性地示出了根据本公开实施方式的一种基于音色的智能调音装置的框图；
73.图5示意性地示出了根据本公开实施方式的一种基于音色的智能调音的处理介质的示意图；
74.图6示意性地示出了根据本公开实施方式的一种能够实现上述方法的电子设备的示意图。
75.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
76.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
77.本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。
78.根据本公开的实施方式，提出了一种基于音色的智能调音方法、介质、装置和计算设备。
79.在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
80.下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。
81.发明概述
82.如前所述，本公开人发现，由于专业的调音师非常稀缺，通常没有空档期，并且收费不菲，导致大多数人很难享受到专业的调音服务。因此，非常需要一种简单快捷的面向大众的智能调音方案。
83.有鉴于此，本说明书提供一种基于用户的干声对应的音色特征，从多个音色模板中确定出与该音色特征相似的音色模板，然后使用该音色模板对应的调音参数为用户的干声进行调音处理的技术方案。
84.本说明书的核心技术构思在于：
85.虽然专业调音师没有精力也没有时间根据每一个用户的干声对应的音色进行调音，但可以让专业调音师为有限个的多个音色模板定制不同的调音参数。
86.例如，可以基于算法从干声数据库中筛选出多个音色模板，而在筛选时，需要保证这些音色模板可以表征整个干声数据库，同时，各音色模板之间具有一定的区分度。
87.进一步的，通过基于相似度匹配出与用户干声最接近的音色模板，并为用户干声套用最接近的音色模板对应的调音参数。
88.在实现时，可以将获取到的用户的干声作为目标音频，输入至预先训练完成的深度学习模型，以使深度学习模型输出目标音频对应的音色特征；再将上述目标音频对应的音色特征，与预设的多个音色模板对应的音色特征进行相似度计算，以确定与目标音频最接近的音色模板；基于该最接近的音色模板对应的预设调音参数，为用户的干声进行调音处理。
89.通过以上技术方案，一方面，可以根据用户的干声对应的音色特征，确定与该音色特征相似的音色模板，将该音色模板对应的调音参数作为该用户的干声的调音参数，为用户提供个性化定制的调音服务；另一方面，可以使用户无需寻找专业的调音师就可以随时随地满足调音需求，只需要上传用户的干声，然后等待智能调音的结果即可，既方便快捷，又无需支付高额的费用。
90.在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。
91.应用场景总览
92.如前所述，无论人声、歌声，还是乐器的声音，它们都不是一个单音，而是一个复合音，也就是由声音的基音和一系列的泛音所构成。
93.例如，钢琴的最低音频率是27.5hz，最高音频率是4186hz，而钢琴有十几个泛音，它的高频可达10khz～20khz，一般可测到16个泛音或24个泛音。这些泛音可分为低频泛音、中频泛音和高频泛音，如果低频泛音的幅度较强，音色就表现得混厚；中频泛音的幅度比较强，音色就表现得圆润、自然、和谐；高频泛音的幅度比较强，音色就表现得明亮、清透、解析力强。
94.而通过上述调音技术，可以对声音进行美化修饰，使声音达到最佳的音色，从而提高声音的艺术表现力。而专业的调音师可以通过调音台对音频信号的音色进行加工处理。
95.例如，对于没有受过专业训练的普通大众，缺乏演唱技巧甚至嗓音不好，比如男声易出现喉音和沙哑，女声易出现气息噪音和声带噪声，这时可以通过诸如，切除100hz频段以下的泛音以消除低频噪声，使音色更加纯净，或者在500
‑
800hz频段进行小量的衰减，使音色不要太生硬。
96.就像用户可以在拍摄照片之后，将照片上传至图片美化类软件进行一键优化，用户在面对更加复杂需要更多专业知识的调音处理时，也会希望有一款软件或应用，可以根据自己音色实现一键个性化调音。
97.需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。
98.示例性方法
99.下面将通过具体的实施例对本说明书的技术构思进行详细描述。
100.本公开旨在提供一种通过将用户的干声作为目标音频，输入至训练完成的深度学习模型，可以使深度学习模型输出目标音频对应的音色特征，再通过计算目标音频对应的音色特征与预设的多个音色模板对应的音色特征的相似度，可以确定与目标音频对应的音色特征相匹配的音色模板，然后基于该音色模板对应的预设调音参数为用户的干声进行调音处理的技术方案。
101.在实现时，可以获取用户的干声作为目标音频。
102.例如，用户的干声可以是无背景音乐、无杂音、未经调音的纯人声。
103.然后，可以将上述目标音频输入至预先训练完成的深度学习模型，以使该深度学习模型输出该目标音频对应的音色特征。
104.例如，可以获取标注了不同歌手名称的音频数据集，截取所述音频数据集中特定的音频片段生成梅尔谱；并训练以所述梅尔谱为输入，歌手名称为输出的深度学习模型。
105.接着，可以将上述目标音频对应的音色特征，以及预设的多个音色模板对应的音色特征，进行相似度计算，并根据相似度计算的结果确定与上述目标音频对应的音色特征相匹配的音色模板。
106.例如，在对上述目标音频对应的音色特征与音色模板对应的音色特征进行余弦相似度计算时，输出的范围为[
‑
1，1]，而输出的结果越接近于1，则相似度越高。
[0107]
再然后，基于匹配到的上述音色模板，确定该音色模板对应的预设调音参数。
[0108]
例如，可以请专业调音师为上述预设的多个音色模板进行调音，确定每个音色模板对应的调音参数，并作为预设的调音参数。
[0109]
最后，根据上述确定出的预设调音参数，为用户的干声进行调音处理。
[0110]
例如，将上述确定出的预设调音参数作为用户的干声对应的调音参数，对用户的干声进行调音处理。
[0111]
通过以上技术方案，一方面，可以根据用户的干声对应的音色特征，确定与该音色特征相似的音色模板，将该音色模板对应的调音参数作为该用户的干声的调音参数，为用户提供个性化定制的调音服务；另一方面，可以使用户无需寻找专业的调音师就可以随时随地满足调音需求，只需要上传用户的干声，然后等待智能调音的结果即可，既方便快捷，又无需支付高额的费用。
[0112]
请参见图1，图1是一示例性实施例提供的一种基于音色的智能调音方法的流程图，所述方法包括以下步骤：
[0113]
步骤101，获取用户的干声作为目标音频。
[0114]
值得说明的是，干声是指无背景音乐、无杂音、未经调音的纯人声。
[0115]
在本实施例中，可以将获取到的用户的干声作为待进行调音处理的目标音频。
[0116]
优选的，在示出的一种实施方式中，所述用户的干声包括所述用户的演唱干声。
[0117]
例如，类似于用户可以将图片导入至图片美化软件中一键美化，用户也可以通过上传自己的演唱干声，由服务器后台进行调音处理，使用户最终发布的演唱作品更加完美。
[0118]
其中，用户的干声可以由用户通过客户端上传，也可以从干声数据库中获取，本公开对此不做限定。
[0119]
步骤102，将所述目标音频输入至预先训练完成的深度学习模型，以使所述深度学习模型输出所述目标音频对应的音色特征。
[0120]
值得说明的是，由于获取到的用户的干声，可能音量大小不一。因此，在将上述目标音频输入至预先训练完成的深度学习模型之前，可以对上述目标音频进行音量归一化处理。
[0121]
在示出的一种实施方式中，可以对所述目标音频进行音量归一化处理。
[0122]
例如，对于音量过小的干声，可以通过将音频进行音量放大，以解决音量过小无法提取音色特征的问题。
[0123]
进一步的，在示出的一种实施方式中，可以对所述目标音频对应的音频波形进行整体缩放，将所述音频波形的最大幅值固定为预设值。
[0124]
具体的，在对目标音频进行音量归一化处理时，可以通过对目标音频对应的音频波形进行整体缩放，将音频波形的最大幅值固定为预设值。
[0125]
例如，对于音频波形的最大幅值低于或高于预设值的目标音频，可以将目标音频的音频波形通过整体放大或整体缩小的方式，将音频波形的最大幅值调整到预设值。
[0126]
在本实施例中，在确定目标音频之后，可以将目标音频输入至预先训练完成的深度学习模型，由该深度学习模型输出目标音频对应的音色特征。
[0127]
其中，为了获取目标音频对应的音色特征，可以训练出一个深度学习模型用于提取音色特征。而在训练深度学习模型时，鉴于同一个歌手的不同作品之间体现的音色基本不变，可以将同一个歌手的不同作品作为输入，歌手的名称作为输出训练上述深度学习模型。
[0128]
优选的，在示出的一种实施方式中，可以获取标注了不同歌手名称的音频数据集，截取音频数据集中特定的音频片段生成梅尔谱；训练以梅尔谱为输入，歌手名称为输出的深度学习模型。
[0129]
举例来说，可以选取不同歌手的多个作品，并为这些作品标注歌手名称，然后将这些标注了不同歌手名称的作品作为音频数据集。
[0130]
进一步的，由于作品对应的音频帧中存在无人声帧的片段，因此可以通过检测作品的音频帧的音高，判断是否存在人声帧，并截取人声帧的占比满足阈值的音频片段，生成该音频片段的梅尔谱。
[0131]
其中，梅尔谱是一种音频特征，通过对音频片段的每一音频帧进行快速傅里叶变换，生成音频片段的频谱；再在频谱上通过梅尔滤波器，将频域变换为更符合人耳听觉习惯的梅尔域，生成音频片段的梅尔谱。
[0132]
继续举例，上述生成的梅尔谱与音频片段一一对应，可以用于描述音频片段的音色特征。接下来，可以将音频片段的梅尔谱作为输入，音频片段的歌手名称作为输出，训练
上述深度学习模型，使得该深度学习模型可以根据梅尔谱描述的音色特征确定音频片段对应的歌手名称。
[0133]
在一个例子中，上述深度学习模型可以是卷积神经网络模型。
[0134]
在另一个例子中，该卷积神经网络模型可以包括：输入层
‑
卷积层
‑
池化层
‑
卷积层
‑
池化层
‑
卷积层。其中，输入的梅尔谱可以是128*129维的向量，卷积核大小为3*3，每层计算卷积后通过的池化层为3*3，而最后一个卷积层则包含256个1维的卷积核，使得模型最终输出为1*256维的向量，该向量表征了输入的梅尔谱描述的音色特征。进一步的，可以将上述1*256维的向量输入至余弦层，经过余弦层的降维得到一个整数，并通过该整数和歌手名称的映射关系，确定输入的梅尔谱描述的音色特征对应的歌手名称。其中，该映射关系是在训练之前就预先设置的，可以类似于“1代表周杰伦，2代表林俊杰，5代表五月天”等。
[0135]
在完成上述卷积神经网络模型的训练之后，可以基于该训练完成的卷积神经网络模型提取目标音频的音色特征，该音色特征为1*256维的向量。
[0136]
其中，在将上述目标音频输入至预先训练完成的卷积神经网络模型之前，可以先生成目标音频的梅尔谱，再将梅尔谱输入至卷积神经网络模型，以使卷积神经网络模型输出目标音频对应的音色特征。
[0137]
步骤103，将所述目标音频对应的音色特征，以及预设的多个音色模板对应的音色特征，进行相似度计算，并根据相似度计算的结果确定与所述目标音频对应的音色特征相匹配的音色模板。
[0138]
在本实施例中，在通过上述深度学习模型提取目标音频对应的音色特征之后，可以将上述目标音频对应的音色特征，以及预设的多个音色模板对应的音色特征，进行相似度计算，并根据相似度计算的结果确定与所述目标音频对应的音色特征相匹配的音色模板。
[0139]
举例来说，假设目标音频对应的音色特征为向量m，音色模板对应的音色特征为向量n，则可以使用以下公式计算向量m与向量n的余弦相似度：
[0140][0141]
继续举例，如果存在一个音色模板对应的音色特征，与目标音频对应的音色特征相似度最高，且相似度的数值满足阈值，如cos(m，n)＞0.5，则可以将该音色模板作为与目标音频对应的音色特征相匹配的音色模板。
[0142]
需要说明的是，上述预设的音色模板还预设了对应的调音参数。
[0143]
例如，可以请专业调音师为上述预设的多个音色模板进行调音，确定每个音色模板对应的调音参数，并作为预设的调音参数。
[0144]
由上述过程可知，每个音色模板中可以包括音色特征，以及预设的调音参数。
[0145]
而在示出的一种实施方式中，所述音色模板中还包括音高特征。
[0146]
进一步的，可以基于预设的音高提取算法提取所述目标音频的音高特征；将所述目标音频的音高特征，与所述预设的多个音色模板对应的音高特征进行比对，根据预设的阈值筛选出与所述目标音频的音高特征相近的所述音色模板。
[0147]
具体的，在执行步骤103之前，可以先基于预设的音高提取算法提取目标音频的音高特征，再将目标音频的音高特征，与预设的多个音色模板对应的音高特征进行比对，根据
预设的阈值筛选出与目标音频的音高特征相近的音色模板。
[0148]
例如，假设目标音频的音高特征为平均音高f1，各个音色模板对应的音高特征为平均音高f
n
，则基于音高特征的筛选公式可以如下所示：
[0149][0150]
基于上述公式，可以筛选出与目标音频的音高特征相近的音色模板，筛选出的音色模板与目标音频的音高相差不超过7个半音。
[0151]
其中，上述音高提取算法可以是pyin算法，也可以是swipe算法，本公开对此不做限定。
[0152]
优选的，在示出的一种实施方式中，基于预设的音高提取算法提取所述目标音频的音高特征，可以包括以下步骤：
[0153]
确定所述目标音频的音频帧，计算每一音频帧的音高；
[0154]
判断所述每一音频帧的音高是否满足预设的阈值，如果不满足，删除所述不满足预设的阈值的音频帧；
[0155]
计算剩余音频帧的平均音高，并将所述平均音高作为所述目标音频的音高特征。
[0156]
举例来说，可以以帧长1024，帧移512，计算目标音频的音频帧中每一帧的音高；接下来，通过判断每一音频帧的音高是否满足预设的阈值来确定该音频帧是否为无人声的音频帧，如果该音频帧的音高不满足预设的阈值，则该音频帧为无人声的音频帧，可以将该音频帧从目标音频中删除；在剔除了上述无人声的音频帧之后，计算目标音频中剩余音频帧的平均音高，并将该平均音高作为目标音频的音高特征。
[0157]
进一步的，在筛选出与目标音频的音高特征相近的音色模板之后，在进行步骤103中的相似度计算时，可以计算目标音频的音色特征，与筛选出的上述音色模板的相似度。
[0158]
在示出的一种实施方式中，可以将所述目标音频对应的音色特征，以及筛选出的与所述目标音频的音高特征相近的所述音色模板对应的音色特征，进行相似度计算。
[0159]
其中，相似度计算的过程如前所述，在此不再赘述。
[0160]
步骤104，基于匹配到的所述音色模板，确定所述音色模板对应的预设调音参数。
[0161]
在本实施例中，在确定出与目标音频的音色特征满足相似度要求的音色模板之后，可以基于匹配到的音色模板，确定该音色模板对应的预设调音参数。
[0162]
另外，如果上述多个音色模板与目标音频都不匹配，说明该用户的干声对应的音色与上述音色模板的音色都不相似，则可以为用户的干声选用预设的通用模板，使用通用调音参数进行调音，也可以不进行调音，本公开对此不做限定。
[0163]
值得说明的是，在示出的一种实施方式中，请参见图2，图2是一示例性实施例提供的一种确定预设的多个音色模板的流程图，包括以下步骤：
[0164]
步骤201，获取干声数据的样本数据集。
[0165]
具体的，可以获取数据库中存储的由用户上传的干声数据。
[0166]
其中，在构建样本数据集之前，还可以对上述干声数据进行筛选。
[0167]
例如，通过人工剔除背景噪声过大的干声，又如，通过人工对用户的性别进行筛选，确保样本数据集中男女比例分布均衡。
[0168]
在示出的一种实施方式中，可以获取干声数据，进行性别筛选，以确定作为所述样
本数据集的干声数据。
[0169]
进一步的，将筛选后的干声数据的集合作为样本数据集。
[0170]
步骤202，将所述样本数据集输入至所述深度学习模型，以使所述深度学习模型输出所述样本数据集对应的音色特征。
[0171]
值得说明的是，在将上述样本数据集输入至深度学习模型之前，可以对样本数据集中的干声数据进行归一化处理，归一化处理的过程如前所述，在此不再赘述。
[0172]
同样的，在将上述样本数据集输入至深度学习模型之前，还可以基于前述的步骤提取样本数据集中的干声数据的音高特征，在此不再赘述。
[0173]
具体的，可以将样本数据集中的干声数据输入至前述训练完成的深度学习模型，以使深度学习模型输出样本数据集中的干声数据对应的音色特征。
[0174]
步骤203，计算所述样本数据集对应的音色特征之间的相似度，并根据相似度计算的结果确定出多个样本数据对应的音色特征作为所述预设的多个音色模板。
[0175]
具体的，为了从样本数据集中选取出可以作为音色模板的干声数据，可以计算样本数据集的干声数据对应的音色特征之间的相似度。
[0176]
进一步的，可以根据相似度计算的结果确定出多个样本数据对应的音色特征作为预设的多个音色模板。
[0177]
优选的，在示出的一种实施方式中，上述步骤203可以包括：
[0178]
将所述样本数据集对应的音色特征中的任一音色特征，确定为所述预设的多个音色模板中的第一个音色模板；
[0179]
遍历所述样本数据集对应的音色特征中的其他音色特征，执行以下操作：
[0180]
计算当前音色特征与各个被确定为音色模板的音色特征之间的相似度；
[0181]
如果任一相似度计算的结果达到所述预设的阈值，则跳过对所述当前音色特征的判断；
[0182]
如果所有相似度计算的结果均小于预设的阈值，则将所述当前音色特征确定为所述预设的多个音色模板中又一个音色模板；
[0183]
在所述遍历完成后，将所述确定出的多个音色模板作为所述预设的多个音色模板。
[0184]
值得说明的是，如果阈值取值较大，会导致选取出的音色模板数量过多，导致在人工对音色模板对应的干声数据进行调音时，产生额外的工作量；同时由于需要调音的模板数量增加了，也会带来成本的增加，导致超出成本预算。
[0185]
而如果阈值取值较小，则会导致选取出的音色模板过少，且不具有代表性，在匹配时出现与目标音频的音色特征相差较大的情况，最终无法为用户干声选定合适的音色模板。
[0186]
在一个例子中，上述阈值可以通过实验法获取，可以通过尝试将阈值的取值遍历0.1
‑
0.9，通过观察得到的音色模板的数量来确定阈值的数值。
[0187]
为更容易的理解上述音色模板的确定过程，请参见图3，图3是一示例性实施例提供的一种确定预设的多个音色模板的示意图。
[0188]
如图3所示，以二维空间中的向量为例，假设图3中各箭头代表了样本数据集中的样本数据对应的众多音色向量，在经过上述筛选步骤之后，从上述音色向量中，筛选出了图
3中圈出的6个音色向量作为音色模板。
[0189]
显然，上述6个音色模板均匀覆盖了整个二维空间，并且彼此之间具有一定的区分度。
[0190]
另外，可以理解的是，与图3所示的任一音色向量的夹角最小的音色模板，即为与该音色向量最相近的音色模板。
[0191]
步骤105，根据确定出的所述预设调音参数，为所述用户的干声进行调音处理。
[0192]
具体的，应用上述确定出的与目标音频相匹配的音色模板所对应的预设调音参数，为用户的干声进行调音处理。
[0193]
在以上实施例中，通过将用户的干声作为目标音频，输入至训练完成的深度学习模型，可以使深度学习模型输出目标音频对应的音色特征，再通过计算目标音频对应的音色特征与预设的多个音色模板对应的音色特征的相似度，可以确定与目标音频对应的音色特征相匹配的音色模板，然后基于该音色模板对应的预设调音参数为用户的干声进行调音处理。
[0194]
通过以上技术方案，一方面，可以根据用户的干声对应的音色特征，确定与该音色特征相似的音色模板，将该音色模板对应的调音参数作为该用户的干声的调音参数，为用户提供个性化定制的调音服务；另一方面，可以使用户无需寻找专业的调音师就可以随时随地满足调音需求，只需要上传用户的干声，然后等待智能调音的结果即可，既方便快捷，又无需支付高额的费用。
[0195]
示例性装置
[0196]
在介绍了本公开示例性实施方式的方法之后，接下来，请参见图4，图4是一示例性实施例提供的一种基于音色的智能调音装置的框图。
[0197]
下述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。
[0198]
如图4所示，基于音色的智能调音装置400可以包括：获取模块401、音色特征提取模块402、音色特征匹配模块403、调音参数确定模块404和调音模块405。其中：
[0199]
获取模块401被配置为，获取用户的干声作为目标音频；
[0200]
音色特征提取模块402被配置为，将所述目标音频输入至预先训练完成的深度学习模型，以使所述深度学习模型输出所述目标音频对应的音色特征；
[0201]
音色特征匹配模块403被配置为，将所述目标音频对应的音色特征，以及预设的多个音色模板对应的音色特征，进行相似度计算，并根据相似度计算的结果确定与所述目标音频对应的音色特征相匹配的音色模板；
[0202]
调音参数确定模块404被配置为，基于匹配到的所述音色模板，确定所述音色模板对应的预设调音参数；
[0203]
调音模块405被配置为，根据确定出的所述预设调音参数，为所述用户的干声进行调音处理。
[0204]
在一实施例中，所述装置400还包括：
[0205]
归一化模块406，对所述目标音频进行音量归一化处理。
[0206]
在一实施例中，所述归一化模块406，进一步：
[0207]
对所述目标音频对应的音频波形进行整体缩放，将所述音频波形的最大幅值固定为预设值。
[0208]
在一实施例中，所述音色模板中还包括音高特征；
[0209]
所述装置400还包括：
[0210]
音高特征提取模块407，基于预设的音高提取算法提取所述目标音频的音高特征；
[0211]
音高特征比对模块408，将所述目标音频的音高特征，与所述预设的多个音色模板对应的音高特征进行比对，根据预设的阈值筛选出与所述目标音频的音高特征相近的所述音色模板。
[0212]
在一实施例中，所述音高特征提取模块407，进一步：
[0213]
确定所述目标音频的音频帧，计算每一音频帧的音高；
[0214]
判断所述每一音频帧的音高是否满足预设的阈值，如果不满足，删除所述不满足预设的阈值的音频帧；
[0215]
计算剩余音频帧的平均音高，并将所述平均音高作为所述目标音频的音高特征。
[0216]
在一实施例中，所述音色特征匹配模块403，进一步：
[0217]
将所述目标音频对应的音色特征，以及筛选出的与所述目标音频的音高特征相近的所述音色模板对应的音色特征，进行相似度计算。
[0218]
在一实施例中，所述深度学习模型的训练过程包括：
[0219]
获取标注了不同歌手名称的音频数据集，截取所述音频数据集中特定的音频片段生成梅尔谱；
[0220]
训练以所述梅尔谱为输入，所述歌手名称为输出的深度学习模型。
[0221]
在一实施例中，所述预设的多个音色模板的确定过程包括：
[0222]
获取干声数据的样本数据集；
[0223]
将所述样本数据集输入至所述深度学习模型，以使所述深度学习模型输出所述样本数据集对应的音色特征；
[0224]
计算所述样本数据集对应的音色特征之间的相似度，并根据相似度计算的结果确定出多个样本数据对应的音色特征作为所述预设的多个音色模板。
[0225]
在一实施例中，所述获取干声数据的样本数据集，包括：
[0226]
获取干声数据，进行性别筛选，以确定作为所述样本数据集的干声数据。
[0227]
在一实施例中，所述计算所述样本数据集对应的音色特征之间的相似度，并根据相似度计算的结果确定出多个样本数据对应的音色特征作为所述预设的多个音色模板，包括：
[0228]
将所述样本数据集对应的音色特征中的任一音色特征，确定为所述预设的多个音色模板中的第一个音色模板；
[0229]
遍历所述样本数据集对应的音色特征中的其他音色特征，执行以下判断：
[0230]
计算当前音色特征与各个被确定为音色模板的音色特征之间的相似度；
[0231]
如果任一相似度计算的结果达到所述预设的阈值，则跳过对所述当前音色特征的判断；
[0232]
如果所有相似度计算的结果均小于预设的阈值，则将所述当前音色特征确定为所述预设的多个音色模板中又一个音色模板；
[0233]
在所述遍历完成后，将所述确定出的多个音色模板作为所述预设的多个音色模板。
[0234]
在一实施例中，所述用户的干声包括所述用户的演唱干声。
[0235]
上述基于音色的智能调音装置400的各个模块的具体细节已经在之前描述基于音色的智能调音方法流程中进行了详细的描述，因此，此处不再赘述。
[0236]
应当注意，尽管在上文详细描述中提及基于音色的智能调音装置400的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0237]
示例性介质
[0238]
在介绍了本公开示例性实施方式的装置之后，接下来，请参见图5，图5是一示例性实施例提供的一种基于音色的智能调音介质的示意图。
[0239]
在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
[0240]
参考图5所示，描述了根据本公开的实施例的用于实现上述方法的程序产品50，其可以采用便携式紧凑盘只读存储器(cd
‑
rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0241]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0242]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0243]
可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0244]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计
算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0245]
示例性计算设备
[0246]
在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，请参见图6，图6是一示例性实施例提供的一种能够实现上述方法的电子设备的示意图。
[0247]
下面参照图6来描述根据本公开的这种实施例的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0248]
如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：上述至少一个处理单元601、上述至少一个存储单元602、连接不同系统组件(包括存储单元602和处理单元601)的总线603。
[0249]
其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元601执行，使得所述处理单元601执行本说明书上述各种实施例的步骤。
[0250]
存储单元602可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)6021和/或高速缓存存储单元6022，还可以进一步包括只读存储单元(rom)6023。
[0251]
存储单元602还可以包括具有一组(至少一个)程序模块6025的程序/使用工具6024，这样的程序模块6025包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包含网络环境的现实。
[0252]
总线603可以包括数据总线、地址总线和控制总线。
[0253]
电子设备600也可以与一个或多个外部设备604(例如键盘、指向设备、蓝牙设备等)通信。这种通信可以通过输入/输出(i/o)接口605进行。并且，电子设备600还可以通过网络适配器606与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器606通过总线603与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0254]
通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd
‑
rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
[0255]
应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0256]
此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0257]
虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。