音频混音方法、装置、设备及存储介质与流程

1.本技术涉及计算机与互联网技术领域，特别涉及一种音频混音方法、装置、设备及存储介质。

背景技术：

2.目前，在已有的歌单中，通过对两首歌曲的转场部分进行混音渲染，生成混音效果。
3.在相关技术中，对应播放顺序相邻的两首歌曲，选取前一首歌曲的结尾固定时长作为待混音片段，以及后一首歌曲的开头固定时长作为待混音片段，对两个待混音片段进行混音得到混音音频。
4.然而，在上述相关技术中，仅仅依靠固定时长确定待混音片段来生成混音音频，混音效果差。

技术实现要素：

5.本技术实施例提供了一种音频混音方法、装置、设备及存储介质，能够提高混音效果的生成效果。所述技术方案如下：
6.根据本技术实施例的一个方面，提供了一种音频混音方法，所述方法包括：
7.获取至少两个音频，所述至少两个音频包括第一音频和第二音频；
8.根据所述第一音频中的多个节拍点分别对应的特征数据以及所述第二音频中的多个节拍点分别对应的特征数据，确定所述第一音频中的待混音片段和所述第二音频中的待混音片段；
9.对所述第一音频中的待混音片段和所述第二音频中的待混音片段进行混音，生成混音音频。
10.根据本技术实施例的一个方面，提供了一种音频混音装置，所述装置包括：
11.音频获取模块，用于获取至少两个音频，所述至少两个音频包括第一音频和第二音频；
12.片段确定模块，用于根据所述第一音频中的多个节拍点分别对应的特征数据以及所述第二音频中的多个节拍点分别对应的特征数据，确定所述第一音频中的待混音片段和所述第二音频中的待混音片段；
13.音频混音模块，用于对所述第一音频中的待混音片段和所述第二音频中的待混音片段进行混音，生成混音音频。
14.根据本技术实施例的一个方面，本技术实施例提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述音频混音方法。
15.根据本技术实施例的一个方面，本技术实施例提供了一种非临时性计算机可读存储介质，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实
现上述音频混音方法。
16.根据本技术实施例的一个方面，提供了一种计算机程序产品，当所述计算机程序产品在服务器上运行时，使得服务器执行上述音频混音方法。
17.本技术实施例提供的技术方案可以带来如下有益效果：
18.通过第一音频中的多个节拍点分别对应的特征数据以及第二音频中的多个节拍点分别对应的特征数据，在第一音频与第二音频之间生成混音效果，且特征数据是各个节拍点分别对应的特征数据，特征数据中包含的内容丰富，提高混音效果的生成效果。
附图说明
19.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1是本技术一个实施例提供的音频混音系统的示意图；
21.图2示例性示出了一种音频混音系统的示意图；
22.图3是本技术一个实施例提供的音频混音方法的流程图；
23.图4示例性示出了一种音频混音方式的示意图；
24.图5示例性示出了一种音频混音结果的示意图；
25.图6是本技术一个实施例提供的音频混音装置的框图；
26.图7是本技术另一个实施例提供的音频混音装置的框图；
27.图8是本技术一个实施例提供的服务器的结构框图。
具体实施方式
28.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
29.请参考图1，其示出了本技术一个实施例提供的音频混音系统的示意图。该音频混音系统可以包括：终端10和服务器20。
30.终端10可以是平板电脑、pc(personal computer，个人计算机)等电子设备。其中，该终端10中可以安装应用程序的客户端，该应用程序可以是任意能够连续播放多个音频的应用程序，如音乐应用程序、视频应用程序、剪辑应用程序等。可选地，该应用程序可以是需要下载安装的应用程序，也可以是即点即用的应用程序，本技术实施例对此不作限定。
31.服务器20可以是上述应用程序的后台服务器。服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。可选地，服务器20可以为不同终端上的多个应用程序提供后台服务。
32.终端10与服务器20之间通过网络30进行通信。
33.可选地，在本技术实施例中，服务器20用于为终端10中的应用程序提供混音服务。如图2所示，终端10向服务器20发送音频混音请求，对应地，服务器20根据该音频混音请求进行混音，并将混音之后的混音结果发送至上述终端10。
34.可选地，若上述音频混音请求中包括单个音频，则服务器20在获取该音频混音请
求之后，以该单个音频为基准，获取该单个音频对应的待混音音频，并在该单个音频与待混音音频之间生成混音效果；若上述音频混音请求中包括多个音频，则服务器20在获取该音频混音请求之后，确定该多个音频的播放顺序，进而在多个音频的两两之间生成混音效果。
35.下面，将结合几个实施例对本技术技术方案进行详细的介绍说明。
36.需要说明的一点是，在本技术实施例中，各步骤的执行主体可以是同一服务器，也可以由多个不同的服务器交互配合执行，此处不作限定。例如，由一个服务器获取两个音频之间的最佳混音位置，再由另一个服务器基于该最佳混音位置，在上述两个音频之间生成混音效果。
37.请参考图3，其示出了本技术一个实施例提供的音频混音方法的流程图。该方法可以应用于图1所示音频混音系统的服务器20中，如各步骤的执行主体可以是服务器20。该方法可以包括以下几个步骤(301～304)：
38.步骤301，获取至少两个音频。
39.在本技术实施例中，服务器在进行混音之前，获取至少两个音频。其中，该至少两个音频即为待混音的音频，该至少两个音频包括第一音频和第二音频。其中，第一音频是指任意待混音的音频。可选地，该第一音频中包括人声和/或乐器声。其中，该乐器声可以是一种或多种乐器声，本技术实施例对此不作限定。第二音频是指任意能够与第一音频进行混音的音频。类似地，该第二音频中包括人声和/或乐器声，且乐器声可以是一种或多种乐器声。
40.可选地，根据混音时实际情况的不同，上述第一音频所包含的内容与上述第二音频所包含的内容有多种不同的组合方式。
41.在一种可能的实施方式中，在对歌单中的相邻歌曲进行混音时，第一音频可以为该歌单中的某个歌曲对应的音频，第二音频可以为该歌曲的相邻歌曲对应的音频。在这种情况下，上述第一音频中可以包括人声和多种乐器声，上述第二音频中也可以包括人声和多种乐器声。其中，不同音频中的人声不同，而且，不同音频中的乐器声也可以不同。
42.在另一种可能的实施方式中，在对视频中的不同音频进行混音时，第一音频可以为演员声音对应的音频，第二音频可以为背景歌曲对应的音频。在这种情况下，上述第一音频中可以包括人声，上述第二音频中可以包括人声和多种乐器声。
43.在再一种可能的实施方式中，在对歌曲中的不同音频进行混音时，第一音频可以为歌曲演唱者的声音对应的音频，第二音频可以为背景伴奏对应的音频。在这种情况下，上述第一音频中可以包括人声，上述第二音频中可以包括多种乐器声。
44.在一种可能的实施方式中，上述第二音频为预先指定，与第一音频的相邻音频。示例性地，上述第二音频和上述第一音频属于同一歌单，且第二音频为第一音频的相邻音频，这种情况下，服务器在确定以上述歌单为基准，对第一音频进行混音时，能够依据已有的歌单信息，确定与该第一音频相邻的第二音频。
45.在另一种可能的实施方式中，上述第二音频也可以是根据第一音频从多个候选音频中获取的。可选地，上述步骤301包括以下几个步骤：
46.1、获取第一音频，以及第一音频的音频特征和真实混音带信息。
47.在本技术实施例中，服务器在确定对第一音频进行混音处理时，获取该第一音频，以及该第一音频的音频特征和真实混音带信息。其中，该音频特征用于反应上述第一音频
的整体特征，可选地，该音频特征包括但不限于以下至少一项：调性、歌曲标签信息；真实混音带信息用于表示至少一个第三音频和/或第一音频混音前后的特征数据的变化，第三音频是指与第一音频具有相同音频风格和/或混音风格的音频。可选地，服务器通过第一音频的已有混音效果和/或至少一个第三音频的已有混音效果，获取该第一音频的真实混音带信息。
48.需要说明的一点是，上述音频特征和真实混音带信息可以是服务器根据第一音频实时获取的，也可以是预先获取并存储在服务器中的，本技术实施例对此不作限定。
49.2、对真实混音带信息和音频特征进行加权组合，得到第一音频对应的音频特征向量。
50.在本技术实施例中，服务器在获取上述真实混音带信息和上述音频特征之后，对该真实混音带信息和音频特征进行加权组合，得到第一音频对应的音频特征向量。其中，该音频特征向量可以理解为用于反映第一音频的整体特征的向量。
51.可选地，在本技术实施例中，服务器在获取上述真实混音带信息和上述音频特征之后，获取该真实混音带信息和音频特征分别对应的权重，进而依据该权重对真实混音带信息和各个音频特征进行加权组合，以得到上述音频特征向量。其中，某个参数对应的权重，与混音过程中该参数的重要程度呈正相关关系，上述参数包括真实混音带信息和音频特征。示例性地，若在第一音频的混音过程中，音频特征a的重要程度大于音频特征b，则音频特征a对应的权重大于音频特征b对应的权重。
52.在一种可能的实施方式中，上述权重属于预先设定信息。可选地，工作人员预先设定第一音频在混音时的第一权重信息，服务器可以根据该第一权重信息确定针对各个参数的权重。当然，在示例性实施例中，若第一音频所针对的待混音音频不同，则对应的第一权重信息也不同，示例性地，在本技术实施例中，第一音频对应有多个预设的第一权重信息，服务器从该多个预设的第一权重信息中获取针对第二音频所设定的第一权重信息。其中，上述工作人员可以是第一音频的创作者，也可以是音乐应用程序的后台工作人员。
53.在另一种可能的实施方式中，上述权重是根据已有混音效果获取的。可选地，服务器获取第一音频的已有混音效果，以及至少一个第三音频的已有混音效果，进而从该已有混音效果中提取出第一音频对应的第一权重信息，以此来确定针对上述各个参数的权重。当然，在示例性实施例中，若服务器已确定在第一音频与第二音频之间添加混音效果，则上述已有混音效果可以包括：第一音频与第二音频之间的已有混音效果、第三音频与第二音频之间的已有混音效果、第一音频与第四音频之间的已有混音效果、第三音频与第四音频之间的已有混音效果等。其中，第四音频是指与第二音频具有相同音频风格和/或混音风格的音频。
54.3、以音频特征向量为基准，获取距离最近的目标音频特征向量。
55.在本技术实施例中，服务器在获取上述音频特征向量之后，以该音频特征向量为基准，获取与该音频特征向量距离最近的目标音频特征向量。可选地，服务器以音频特征向量为基准，确定第一音频在多维欧式空间中的位置，进一步地，以各个候选音频分别对应的候选音频特征向量为基准，确定各个候选音频在上述多维欧式空间中的位置，之后，在该多维欧式空间中，以各个候选音频与第一音频之间的距离为基准，获取上述目标音频特征向量。
56.在一种可能的实施方式中，上述候选音频为预先设定的音频。可选地，服务器在获取上述第一音频之后，从预先设定的候选音频中获取与第一音频相邻播放的第二音频。以歌单为例，上述候选音频为与第一音频属于同一歌单的音频，服务器在获取第一音频之后，根据第一音频确定歌单中各个音频的播放顺序，进而确定第一音频对应的第二音频。
57.在另一种可能的实施方式中，上述候选音频为任意音频。可选地，服务器在获取上述第一音频之后，从大数据中获取该第一音频所对应的第二音频。以歌单为例，服务器在获取上述第一音频之后，从大数据中筛选确定第一音频对应的第二音频，之后，继续以第二音频为基准，获取第二音频对应的除第一音频之外的另一个相邻音频，以此类推，在第一音频与后续获取的音频的数量之和等于预设歌单长度时，确定服务器生成新歌单。其中，该新歌单中包括第一音频，以及后续获取的音频。
58.4、将目标音频特征向量对应的音频确定为第二音频。
59.在本技术实施例中，服务器在获取上述目标音频特征向量之后，将该目标音频特征向量对应的音频确定为上述第二音频。在这种情况下，由于目标音频特征向量与音频特征向量之间的距离最近，因此，第二音频可以理解为多个候选音频中与第一音频最相似的音频，在第一音频与第二音频之间增加混音效果时，由于两个音频之间的相似度较高，能够有效降低服务器的计算量，并提高混音音频的转场效果。
60.步骤302，根据第一音频中的多个节拍点分别对应的特征数据以及第二音频中的多个节拍点分别对应的特征数据，确定第一音频中的待混音片段和第二音频中的待混音片段。
61.在本技术实施例中，服务器在获取上述第一音频和上述第二音频之后，根据第一音频中的多个节拍点分别对应的特征数据以及第二音频中的多个节拍点分别对应的特征数据，确定第一音频中的待混音片段和第二音频中的待混音片段。
62.其中，上述第一音频中的多个节拍点分别对应的特征数据所组成的集合可以称为第一特征数据集合，上述第二音频中的多个节拍点分别对应的特征数据所组成的集合可以称为第二特征数据集合。可选地，在本技术实施例中，上述音频特征为第一特征数据集合的子集合。
63.上述第一音频中的多个节拍点对应的特征数据包括以下至少一项：重拍、和弦、调性、结构、响度、人声与器乐比例、音色、和声、高潮点、歌曲标签信息和真实混音带信息。其中，真实混音带信息用于表示至少一个第三音频和/或第一音频混音前后的特征数据的变化，第三音频是指与第一音频具有相同音频风格和/或混音风格的音频。
64.可选地，上述第一特征数据集合中包括第一音频的音频特征、第一音频的节拍点特征和第一音频的真实混音带信息。在本技术实施例中，服务器在获取上述第一特征数据集合包括以下几个步骤：
65.1、获取第一音频的音频特征。
66.音频特征是指用于反映第一音频的整体音频特征的特征集合。在本技术实施例中，服务器在获取上述第一音频之后，以该第一音频的整体为基准，获取第一音频的音频特征。其中，音频特征包括但不限于以下至少一项：调性和歌曲标签信息。
67.可选地，上述调性和上述歌曲标签信息可以是服务器根据第一音频推测得到的，也可以是工作人员根据第一音频所设定的。
68.2、按照第一音频中的多个节拍点对第一音频进行分割，得到第一音频对应的多个音频片段，获取多个音频片段分别对应的节拍点特征。
69.节拍点特征用于反映第一音频中对应的节拍点的特点，不同的节拍点对应有不同的节拍点特征。其中，节拍点特征中包括但不限于以下至少一项：重拍、和弦、结构、响度、人声与器乐比例、音色、和声、高潮点等。
70.可选地，第一音频所包含的节拍点也可称为第一节拍点。在本技术实施例中，服务器在获取上述第一音频特征之后，获取第一音频所包含的各个第一节拍点，以第一节拍点所在的时刻作为分割时刻，对第一音频进行分割，得到第一音频对应的多个音频片段。其中，音频片段与第一节拍点之间具有一一对应关系，即在第一音频中，不同的第一节拍点对应有不同的音频片段。之后，服务器根据多个音频片段，获取多个音频片段分别对应的节拍点特征集合。
71.在一种可能的实施方式中，对于上述多个第一节拍点中的目标节拍点，服务器根据该目标节拍点对应的音频片段，获取该目标节拍点对应的节拍点特征。
72.在另一种可能的实施方式中，对于上述多个第一节拍点中的目标节拍点，服务器在获取该目标节拍点之后，获取该目标节拍点对应的相邻节拍点，进一步地，服务器根据目标节拍点对应的音频片段，以及相邻节拍点对应的音频片段，获取该目标节拍点对应的节拍点特征。可选地，上述相邻节拍点是指在播放时刻上与目标节拍点相邻的节拍点。示例性地，该相邻节拍点可以是目标节拍点相邻的前n个节拍点；或者，该相邻节拍点也可以是目标节拍点相邻的后m个节拍点；或者，该相邻节拍点还可以是目标节拍点相邻的前i个节拍点和后j个节拍点。其中，上述n、m、i、j均为正整数。
73.3、根据第一音频的已有混音效果和/或至少一个第三音频的已有混音效果，获取第一音频的真实混音带信息。
74.真实混音带信息用于表示至少一个第三音频和/或第一音频混音前后的特征数据的变化。在本技术实施例中，服务器在获取上述第一音频之后，以该第一音频为基准，获取与该第一音频具有相同音频风格和/或混音风格的至少一个第三音频，进一步地，获取第一音频的已有混音效果，以及至少一个第三音频的已有混音效果，并根据第一音频的已有混音效果和/或至少一个第三音频的已有混音效果，获取第一音频的真实混音带信息。
75.可选地，第二音频所包含的节拍点也可称为第二节拍点，在本技术实施例中，第二节拍点的相关内容与上述第一节拍点类似，具体参数上述关于第一节拍点的介绍，在此不作赘述。
76.需要说明的一点是，上述第一特征数据集合和上述第二特征数据集合可以是实时获取的特征数据集合，也可以是预先获取并存储的特征数据集合，本技术实施例对此不作限定。
77.可选地，在本技术实施例中，服务器在获取上述第一特征数据集合和上述第二特征数据集合之后，根据该第一特征数据集合和第二特征数据集合，获取第一音频与第二音频之间的最佳混音位置，进而基于该最佳混音位置，确定第一音频中的待混音片段和第二音频中的待混音片段。其中，该最佳混音位置可以理解为第一音频与第二音频中最相似的位置，以该最佳混音位置对第一音频与第二音频进行混音时，能够有效减少混音过程中对第一音频与第二音频的修改，提高混音效果。
78.步骤303，对第一音频中的待混音片段和第二音频中的待混音片段进行混音，生成混音音频。
79.在本技术实施例中，服务器在获取第一音频中的待混音片段和第二音频中的待混音片段之后，对第一音频中的待混音片段和第二音频中的待混音片段进行混音，生成混音音频。
80.需要说明的一点是，本技术只是以上述至少两个音频中的第一音频和第二音频进行说明，在示例性实施例中，服务器在生成混音音频时，需要在该至少两个音频中的两两相邻音频中增加混音效果。
81.综上所述，本技术实施例提供的技术方案中，通过第一音频中的多个节拍点分别对应的特征数据以及第二音频中的多个节拍点分别对应的特征数据，在第一音频与第二音频之间生成混音效果，且特征数据是各个节拍点分别对应的特征数据，特征数据中包含的内容丰富，提高混音效果的生成效果。
82.下面，对上述待混音片段的获取方式进行介绍。
83.在示例性实施例中，上述步骤302包括以下几个步骤：
84.1、对第一音频中的各个节拍点对应的特征数据分别进行特征组合，得到多个第一节拍向量。
85.在本技术实施例中，服务器在获取上述第一特征数据集合之后，以第一音频中的第一节拍点为基准，对各个第一节拍点对应的特征数据组分别进行特征组合，得到多个第一节拍向量。其中，第一节拍向量是指第一节拍点的特征向量，且第一节拍向量与第一节拍点之间具有一一对应的关系。
86.可选地，在本技术实施例中，特征数据中不同的特征数据对应有不同的权重。服务器在获取第一节拍向量时，根据第一音频的音频风格和混音风格，获取各个特征数据分别对应的权重；进而根据各个特征数据分别对应的权重，对第一音频中的各个特征数据分别进行加权组合，得到多个第一节拍向量。其中，某个特征数据对应的权重，与混音过程中该特征数据的重要程度呈正相关关系。示例性地，若在第一音频的混音过程中，特征数据c的重要程度大于特征数据d，则特征数据c对应的权重大于特征数据d对应的权重。
87.在一种可能的实施方式中，上述权重属于预先设定信息。可选地，工作人员预先设定第一音频在混音时的第二权重信息，服务器可以根据该第二权重信息确定针对各个特征数据的权重。当然，在示例性实施例中，若第一音频所针对的待混音音频不同，则对应的第二权重信息也不同，示例性地，在本技术实施例中，第一音频对应有多个预设的第二权重信息，服务器从该多个预设的第二权重信息中获取针对第二音频所设定的第二权重信息。
88.在另一种可能的实施方式中，上述权重是根据已有混音效果获取的。可选地，服务器获取第一音频的已有混音效果，以及至少一个第三音频的已有混音效果，进而从该已有混音效果中提取出第一音频对应的第二权重信息，以此来确定针对上述各个特征数据的权重。当然，在示例性实施例中，若服务器已确定在第一音频与第二音频之间添加混音效果，则上述已有混音效果可以包括：第一音频与第二音频之间的已有混音效果、第三音频与第二音频之间的已有混音效果、第一音频与第四音频之间的已有混音效果、第三音频与第四音频之间的已有混音效果等。
89.2、对第二音频中的各个节拍点对应的特征数据组分别进行特征组合，得到多个第
二节拍向量。
90.在本技术实施例中，服务器在获取上述第二特征数据集合之后，以第二音频的第二节拍点为基准，对各个第二节拍点对应的特征数据组分别进行特征组合，得到多个第二节拍向量。其中，第二节拍向量是指第二节拍点的特征向量，且第二节拍向量与第二节拍点之间具有一一对应的关系。
91.其中，关于第二节拍向量的获取方式与上述第一节拍向量的获取方式类似，具体参见上文中针对第一节拍向量的介绍内容，在此不作赘述。
92.3、根据多个第一节拍向量和多个第二节拍向量，确定第一音频中的待混音片段和第二音频中的待混音片段。
93.在本技术后实施例中，服务器在获取上述多个第一节拍向量和上述多个第二节拍向量之后，根据多个第一节拍向量和多个第二节拍向量，确定第一音频中的待混音片段和第二音频中的待混音片段。
94.可选地，在本技术实施例中，服务器在确定上述待混音片段时，先获取至少一个候选的节拍长度。其中，该候选节拍长度为工作人员预先设定的节拍长度，示例性地，该节拍长度可以为2个节拍、4个节拍、8个节拍等，本技术实施例对此不作限定。
95.可选地，服务器在获取上述至少一个候选的节拍长度之后，对于至少一个候选的节拍长度中的目标节拍长度，服务器基于该目标节拍长度，对多个第一节拍向量进行分组处理，得到多个第一节拍向量组。其中，上述目标节拍长度可以是多个候选的节拍长度中的任一节拍长度。需要说明的一点是，相邻的第一节拍向量组之间仅仅存在一个节拍点的差异。示例性地，对于十个节拍点(节拍点1、节拍点2、节拍点3
……
节拍点10)，若目标节拍长度为4，则第一节拍组中包括节拍点1、节拍点2、节拍点3和节拍点4，第二节拍组中包括节拍点2、节拍点3、节拍点4和节拍点5，以此类推，直至不存在未分组的节拍点。类似地，对于第二音频，服务器对于至少一个候选节拍长度中的目标长度，基于该目标长度，对多个第二节拍向量进行分组处理，得到多个第二节拍向量组。
96.可选地，在本技术实施例中，服务器在对节拍向量进行分组之后，以节拍向量组为单位，对各个第一节拍向量组和各个第二节拍向量组分别进行向量求平均处理，得到多个第一目标节拍向量和多个第二目标节拍向量；进一步地，获取该多个第一目标节拍向量和该多个第二目标节拍向量两两之间的距离，得到目标节拍长度对应的距离集合。之后，服务器根据各个候选的节拍长度分别对应的距离集合，确定第一音频中的待混音片段和第二音频中的待混音片段。
97.需要说明的一点是，上述距离获取操作仅仅针对不同音频的目标节拍向量。示例性地，若第一音频对应有第一目标节拍向量1、第一目标节拍向量2和第一目标节拍向量3，第二音频对应有第二目标节拍向量1、第二目标节拍向量2和第二目标节拍向量3，则上述距离集合中包括第一目标节拍向量1与第二目标节拍向量1之间的距离、第一目标节拍向量1与第二目标节拍向量2之间的距离、第一目标节拍向量1与第二目标节拍向量3之间的距离、第一目标节拍向量2与第二目标节拍向量1之间的距离、第一目标节拍向量2与第二目标节拍向量2之间的距离、第一目标节拍向量2与第二目标节拍向量3之间的距离、第一目标节拍向量3与第二目标节拍向量1之间的距离、第一目标节拍向量3与第二目标节拍向量2之间的距离、第一目标节拍向量3与第二目标节拍向量3之间的距离。
98.可选地，在本技术实施例中，服务器在获取各个候选的节拍长度分别对应的距离集合之后，从各个候选的节拍长度分别对应的距离集合中，确定最小距离对应的第一目标节拍向量和第二目标节拍向量；进一步地，将最小距离对应的第一目标节拍向量所对应的节拍组，确定为第一音频的最佳混音位置；将最小距离对应的第二目标节拍向量所对应的节拍组，确定为第二音频的最佳混音位置。
99.可选地，在本技术实施例中，服务器在获取上述第一音频的最佳混音位置和上述第二音频中的待混音位置之后，以第一音频的最佳混音位置为基准确定第一音频中的待混音片段，以第二音频的最佳混音位置为基准确定第二音频中的待混音片段。
100.在一种可能实施方式中，上述最佳混音位置仅仅用于指示待混音片段的开始位置。可选地，若第一音频在第二音频之前播放，则上述第一音频中的待混音位置片段从第一音频的最佳混音位置开始直至第一音频的结尾，上述第二音频中的待混音位置片段从第二音频的最佳混音位置开始直至第二音频中的待混音位置片段的时长与第一音频中的待混音位置片段的时长相等。
101.在另一种可能的实施方式中，上述最佳混音位置用于指示待混音片段的开始位置和结束位置。可选地，服务器在获取上述最佳混音位置之后，将第一音频的最佳混音位置所对应的节拍组所处的区域，确定为第一音频中的待混音位置片段；将第二音频的最佳混音位置所对应的节拍组所处的区域，确定为第二音频中的待混音位置片段。
102.当然，在其它可能的实施例中，服务器可以根据实际情况灵活确定上述第一音频中的待混音位置和上述第二音频中的待混音位置。以第一音频在第二音频之前播放为例，在获取上述最佳混音位置之后，获取第一音频与第二音频的重要程度。可选地，若第一音频重要，但第二音频不重要，则代表在混音时需要保留第一音频中的重要部分，但不需要对第二音频进行额外的考虑。在这种情况下，服务器获取第一音频的重要部分与第一音频的最佳混音位置之间的关系。若第一音频的重要部分均位于第一音频的最佳混音位置对应的结束节拍点之前，则将第一音频的最佳混音位置所对应节拍组确定为第一音频中的待混音位置片段，进而以第一音频中的待混音位置片段的时长为基准，结合第二音频的最佳混音位置确定第二音频中的待混音位置片段；若第一音频的部分重要部分均位于第一音频的最佳混音位置对应的结束节拍点之后，则将第一音频的最佳混音位置的起点位置作为第一音频中的待混音位置片段的起点位置，重要部分的结束位置作为第一音频中的待混音位置片段的结束位置，进而以第一音频中的待混音位置片段的时长为基准，结合第二音频的最佳混音位置确定第二音频中的待混音位置片段。可选地，若第一音频与第二音频均重要，则服务器在获取第一音频中的待混音位置片段时，需要保证第一音频的重要部分均位于第一音频中的待混音位置片段的结束位置之前，而且，服务器在获取第二音频中的待混音位置片段时，需要保证第二音频的重要部分均位于第二音频中的待混音位置片段的起点位置之后。
103.需要说明的一点是，为了减少服务器的计算量，在获取上述最佳混音位置之前，先获取最佳混音位置对应的播放范围。其中，第一音频的最佳混音位置用于获取第一音频中的待混音位置片段，第二音频的最佳混音位置用于获取第二音频中的待混音位置片段。可选地，在本技术实施例中，服务器基于第一音频的播放时长、第二音频的播放时长，以及第一音频与第二音频之间的播放顺序，确定最佳混音位置对应的播放范围；进一步地，在该播放范围内，获取上述多个第一节拍向量和上述多个第二节拍向量。也就是说，在获取上述多
个第一节拍向量和上述多个第二节拍向量过程中，以播放范围为基准，仅仅对第一音频的部分音频和第二音频的部分音频进行处理，减少服务器的计算量。
104.其中，上述播放范围中包括针对第一音频的第一播放范围和针对第二音频的第二播放范围。示例性地，若第一音频在第二音频之前播放，则根据第一音频的播放时长，确定第一音频对应的结尾音频，将该结尾音频确定为第一播放范围，并且，根据第二音频的播放时长，确定第二音频的开始音频，将该开始音频确定为第二播放范围。
105.下面，对混音音频的生成方式进行介绍。
106.在示例性实施例中，上述步骤303包括以下几个步骤：
107.1、基于音量调整规则，对第一音频中的待混音片段与第二音频中的待混音片段进行音量调整，以使得第一音频中的待混音片段与第二音频中的待混音片段的音量之和小于目标值。
108.在本技术实施例中，服务器在获取上述第一音频中的待混音片段与上述第二音频中的待混音片段之后，基于音量调整规则，对第一音频中的待混音片段与第二音频中的待混音片段进行音量调整，以使得第一音频中的待混音片段与第二音频中的待混音片段的音量之和小于目标值。
109.可选地，若第一音频的播放顺序在第二音频之前，则服务器对第一音频中的待混音片段的音量按照播放时间进行由大到小的调整；以及，对第二音频中的待混音片段的音量按照播放时间进行由小到大的调整。其中，上述音量调整规则可以是根据第一音频的音频风格和混音风格，以及第二音频的音频风格和混音风格确定的。
110.2、基于频率调整规则，对第一音频中的待混音片段与第二音频中的待混音片段进行频率调整，以生成混音效果。
111.在本技术实施例中，服务器在获取上述第一音频中的待混音片段和上述第二音频中的待混音片段之后，基于频率调整规则，对第一音频中的待混音片段与第二音频中的待混音片段进行频率调整，以生成混音音频。其中，上述频率调整规则可以是根据第一音频的音频风格和混音风格，以及第二音频的音频风格和混音风格确定的。
112.可选地，在本技术实施例中，服务器在生成混音音频时，基于第一音频中的待混音片段和第二音频中的待混音片段，确定目标播放时刻。进一步地，在目标播放时刻之前，削减第一音频的低频音频和第二音频的高频音频；在目标播放时刻之后，削减第一音频的高频音频，以及，恢复第二音频的高频音频。而且，若第一音频中的待混音片段中包括第一音频的高潮片段，则在第一音频的高潮片段之前滤除第一音频的低频音频；若第二音频中的待混音片段中包括第二音频的高潮片段，则在第二音频的高潮片段之前滤除第二音频的低频音频。
113.当然，在本技术实施例中，服务器在生成上述混音效果之前，根据第一音频的音频风格和混音风格，以及第二音频的音频风格和混音风格，确定上述音量调整规则和上述频率调整规则。
114.可选地，在本技术实施例中，上述第一音频中的待混音片段也可称为第一混音区域，上述第二音频中的待混音片段也可称为第二混音区域。
115.另外，结合参考图4，对本技术中的音频混音方法进行完整介绍。以第一音频的播放顺序在前为例，服务器在获取第一音频之后，获取该第一音频的第一特征数据集合。其
中，第一特征数据集合中包括多个第一节拍点分别对应的特征数据，第一节拍点是指第一音频中的节拍点。之后，以第一特征数据集合为基准，从多个候选音频中获取与第一音频最相似的第二音频，并获取第二音频的第二特征数据集合。其中，第二特征数据集合中包括多个第二节拍点分别对应的特征数据，第二节拍点是指第二音频中的节拍点。进一步地，服务器获取第一音频的结尾音频和第二音频的起点音频，根据第一特征数据集合和第二特征数据集合，在结尾音频中获取第一音频的最佳混音位置，在起点音频中获取第二音频的最佳混音位置，并在第一音频的最佳混音位置和第二音频的最佳混音位置之间，生成第一音频与第二音频之间的混音效果。示例性地，如图5所示，第一音频的最佳混音位置为t1～t2，第二音频的最佳混音位置为t3～t4。在混音时，针对第一音频，以t2为分界点，保留第一音频在t2之前的音频，去除第一音频在t2之后的音频；针对第二音频，以t3为分界点，保留第二音频在t3之后的音频，去除第二音频在t3之前的音频。而且，在混音之后，第一音频的t1～t2范围内的音频，与第二音频的t3～t4范围内的音频在播放时间上重叠。当然，若|t1
‑
t2|的值与|t3
‑
t4|的值不相等，服务器在混音时可以对需要重叠播放的音频区域进行变速处理。
116.下述为本技术装置实施例，可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节，请参照本技术方法实施例。
117.请参考图6，其示出了本技术一个实施例提供的音频混音装置的框图。该装置具有实现上述音频混音方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是服务器，也可以设置服务器中。该装置600可以包括：音频获取模块610、片段确定模块620和音频混音模块630。
118.音频获取模块610，用于获取至少两个音频，所述至少两个音频包括第一音频和第二音频。
119.片段确定模块620，用于根据所述第一音频中的多个节拍点分别对应的特征数据以及所述第二音频中的多个节拍点分别对应的特征数据，确定所述第一音频中的待混音片段和所述第二音频中的待混音片段。
120.音频混音模块630，用于对所述第一音频中的待混音片段和所述第二音频中的待混音片段进行混音，生成混音音频。
121.在示例性实施例中，所述片段确定模块620，用于对所述第一音频中的各个节拍点对应的特征数据分别进行特征组合，得到多个第一节拍向量；对所述第二音频中的各个节拍点对应的特征数据分别进行特征组合，得到多个第二节拍向量；根据所述多个第一节拍向量和所述多个第二节拍向量，确定所述第一音频中的待混音片段和所述第二音频中的待混音片段。
122.在示例性实施例中，所述片段确定模块620，用于获取至少一个候选的节拍长度；对于所述至少一个候选的节拍长度中的目标节拍长度，基于所述目标节拍长度，对所述多个第一节拍向量进行分组处理，得到多个第一节拍向量组；对于所述至少一个候选节拍长度中的目标长度，基于所述目标长度，对所述多个第二节拍向量进行分组处理，得到多个第二节拍向量组；以节拍向量组为单位，对各个所述第一节拍向量组和各个所述第二节拍向量组分别进行向量求平均处理，得到多个第一目标节拍向量和多个第二目标节拍向量；获取所述多个第一目标节拍向量和所述多个第二目标节拍向量两两之间的距离，得到所述目
标节拍长度对应的距离集合；根据各个所述候选的节拍长度分别对应的距离集合，确定所述第一音频中的待混音片段和所述第二音频中的待混音片段。
123.在示例性实施例中，所述片段确定模块620，用于从各个所述候选的节拍长度分别对应的距离集合中，确定最小距离对应的第一目标节拍向量和第二目标节拍向量；将所述最小距离对应的第一目标节拍向量所对应的节拍组，确定为所述第一音频的最佳混音位置；将所述最小距离对应的第二目标节拍向量所对应的节拍组，确定为所述第二音频的最佳混音位置；以所述第一音频的最佳混音位置为基准确定所述第一音频中的待混音片段；以所述第二音频的最佳混音位置为基准确定所述第二音频中的待混音片段。
124.在示例性实施例中，所述片段确定模块620，用于根据所述第一音频的音频风格和混音风格，获取各个所述特征数据分别对应的权重；根据各个所述特征数据分别对应的权重，对所述第一音频中的各个节拍点对应的特征数据分别进行加权组合，得到所述多个第一节拍向量。
125.在示例性实施例中，所述音频混音模块630，用于基于音量调整规则，对所述第一音频中的待混音片段和所述第二音频中的待混音片段进行音量调整，以使得所述第一音频中的待混音片段与所述第二音频中的待混音片段的音量之和小于目标值；基于频率调整规则，对所述第一音频中的待混音片段和所述第二音频中的待混音片段进行频率调整，以生成所述混音音频。
126.在示例性实施例中，所述音频混音模块630，用于响应于所述第一音频的播放顺序在所述第二音频之前，对所述第一音频中的待混音片段的音量按照播放时间进行由大到小的调整；以及，对所述第二音频中的待混音片段的音量按照播放时间进行由小到大的调整。
127.在示例性实施例中，所述音频混音模块630，用于基于所述第一音频中的待混音片段和所述第二音频中的待混音片段，确定目标播放时刻；在所述目标播放时刻之前，削减所述第一音频中的待混音片段的低频音频和所述第二音频中的待混音片段的高频音频；在所述目标播放时刻之后，削减所述第一音频中的待混音片段的高频音频，以及，恢复所述第二音频中的待混音片段的高频音频；响应于所述第一音频中的待混音片段包括所述第一音频的高潮片段，在所述第一音频的高潮片段之前滤除所述第一音频的低频音频；响应于所述第二音频中的待混音片段包括所述第二音频的高潮片段，在所述第二音频的高潮片段之前滤除所述第二音频的低频音频。
128.在示例性实施例中，如图7所示，所述装置600还包括：规则获取模块640。
129.规则获取模块640，用于根据所述第一音频的音频风格和混音风格，以及所述第二音频的音频风格和混音风格，确定所述音量调整规则和所述频率调整规则。
130.在示例性实施例中，所述多个第一节拍点中的目标节拍点对应的特征数据组包括以下至少一项：重拍、和弦、调性、结构、响度、人声与器乐比例、音色、和声、高潮点、歌曲标签信息和真实混音带信息；其中，所述真实混音带信息用于表示至少一个第三音频和/或所述第一音频混音前后的特征数据的变化，所述第三音频是指与所述第一音频具有相同音频风格和/或混音风格的音频。
131.在示例性实施例中，如图7所示，所述装置600还包括：特征获取模块650。
132.特征获取模块650，用于获取所述第一音频的音频特征，所述音频特征包括以下至少一项：调性、歌曲标签信息；按照所述第一音频中的多个节拍点对所述第一音频进行分
割，得到所述第一音频对应的多个音频片段，获取所述多个音频片段分别对应的节拍点特征，所述节拍点特征中包括以下至少一项：重拍、和弦、结构、响度、人声与器乐比例、音色、和声、高潮点；根据所述第一音频的已有混音效果和/或所述至少一个第三音频的已有混音效果，获取所述第一音频的真实混音带信息。
133.在示例性实施例中，所述音频获取模块610，用于获取所述第一音频，以及所述第一音频的音频特征和真实混音带信息；对所述真实混音带信息和所述音频特征进行加权组合，得到所述第一音频对应的音频特征向量；以所述音频特征向量为基准，获取距离最近的目标音频特征向量；将所述目标音频特征向量对应的音频确定为所述第二音频。
134.综上所述，本技术实施例提供的技术方案中，通过第一音频中的多个节拍点分别对应的特征数据以及第二音频中的多个节拍点分别对应的特征数据，在第一音频与第二音频之间生成混音效果，且特征数据是各个节拍点分别对应的特征数据，特征数据中包含的内容丰富，提高混音效果的生成效果。
135.需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
136.请参考图8，其示出了本技术一个实施例提供的服务器的结构框图。该服务器可用于实现上述音频混音方法的功能。具体来讲：
137.服务器800包括中央处理单元(central processing unit，cpu)801、包括随机存取存储器(random access memory，ram)802和只读存储器(read only memory，rom)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(input/output，i/o系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
138.基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
139.大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，大容量存储设备807可以包括诸如硬盘或者cd
‑
rom(compact disc read
‑
only memory，只读光盘)驱动器之类的计算机可读介质(未示出)。
140.不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom(erasable programmable read only memory，可擦除可编程只读存储器)、eeprom(electrically erasable programmable read only memory，电可擦可编程只读存储器)、闪存或其他固态存储设备，cd
‑
rom、dvd(digital video disc，高密度数字视频光
盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
141.根据本技术的各种实施例，服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
142.所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述音频混音方法。
143.在示例性实施例中，还提供了一种非临时性计算机可读存储介质，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述音频混音方法。
144.可选地，该非临时性计算机可读存储介质可以包括：rom(read only memory，只读存储器)、ram(random access memory，随机存取记忆体)、ssd(solid state drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括reram(resistance random access memory,电阻式随机存取记忆体)和dram(dynamic random access memory，动态随机存取存储器)。
145.在示例性实施例中，还提供了一种计算机程序产品，当所述计算机程序产品在服务器上运行时，使得服务器执行上述音频混音方法。
146.应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本技术实施例对此不作限定。
147.以上所述仅为本技术的示例性实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。