一种基于音色的平行语音合成方法与流程

1.本发明涉及语音转换技术领域，尤其是一种基于音色的平行语音合成方法。

背景技术：

2.语音转换(voice conversion，vc)是一种在保留语言信息的同时，对给定语音的副语言信息进行转换的技术。语音转换在各种任务上有很大的应用潜力，如口语辅助、语体转换和发音。伴随着机器学习、神经网络和深度学习理论的发展，语音转换等相关任务的自然度和精度在逐步提升，这对于解决语音领域的数据匮乏问题提供了很大帮助。
3.然而现有的语音合成方法具有以下不足：
4.1、语音增广：在语音任务中，最关键的挑战之一就是缺少足够的训练数据，容易产生过拟合，使用语音转换技术可以大幅增加语料的数量。
5.2、语音情感识别：在传统的语音合成中，人们往往只是简单的解决了以某种朗读风格将书本字符转换为口语输出，却忽略了文字中参杂的说话人各类的情感信息，不能反映出说话人的真实的感情状态和情绪表达，让听者感觉到与其交流的单调、乏味，从而引起话语理解上的偏差。语音转换可以增强语音合成的表现力，特别是让合成的语音能够模拟表达出说话人的情感状态，是未来语音技术的发展趋势之一。
6.3、口音矫正：将不容易理解的声音，转换为理解的声音。常用于语言学习场景中，通过聆听和对比个人的口语，实现口音的矫正。

技术实现要素：

7.本发明针对以上问题提出了一种基于音色的平行语音合成方法。
8.本发明采用的技术手段如下：
9.一种基于音色的平行语音合成方法，包括以下步骤：
10.构建多通道时频域gan模型，所述多通道时频域gan模型包括第一通道和第二通道，所述第一通道用于对原始声音信号进行时频域声学信号的提取和生成，所述第二通道用于对原始声音信号进行显著性区域时域声学信号的提取和生成；
11.构建基于mixup的损失计算模型，所述基于mixup的损失计算模型用于获取第一通道和第二通道的损失并对其进行损失计算以调节由第一通道生成的时频域声学信号；
12.构建基于mixup的堆叠模型，所述基于mixup的堆叠模型用于获取由第一通道生成的时频域声学信号并对其进行解码获取转换音色后的声音信号。
13.进一步地，所述第一通道包括依次设置的预处理网络、第一生成器、第一判别器以及第一损失估计网络；
14.所述预处理网络包括用于对原始声音信号处理生成的梅尔倒谱参数的melgan模型、用于生成随机填充帧叠的随机填充帧生成器以及用于对生成的梅尔倒谱参数和生成的随机填充帧进行叠加以生成含有填充帧的梅尔倒谱参数的叠加器。
15.进一步地，所述预处理网络对原始声音信号处理生成含有填充帧的梅尔倒谱参数
的方法如下：
16.(1)melgan模型对原始声音信号x进行处理，生成梅尔倒谱参数mel
‑
cepstrum(x)，随机填充帧生成器创建一个与原始声音信号x尺寸相同的掩码mask(m)，m中仅包含0或1，m中被叠加区域的值是0，m中未选中区域的值是1；
17.(2)通过公式(1)将随机填充帧m叠加在x上：
[0018][0019]
其中，是掩码后的声音信号，
·
表示元素智能乘积。
[0020]
进一步地，所述第二通道包括依次设置的显著性时域区域提取模型和时域语音合成模型；
[0021]
所述显著性时域区域提取模型包括用于将原始声音信号转换成声音图像的图像生成模型、用于对声音图像进行有效区域提取获得显著性区域图像的显著性区域提取模型以及用于对显著性区域图像进行处理生成梅尔倒谱参数的melgan模型；
[0022]
所述时域语音合成模型包括第二生成器、第二判别器以及第二损失估计网络。
[0023]
进一步地，所述第一生成器和所述第二生成器具有相同结构，包括依次设置的三组下采样模块、七组残差模块以及三组上采样模块；
[0024]
所述下采样模块包括依次设置的一个二维cnn和一个glu，其中，二维cnn的卷积核尺寸是5，步长为2；
[0025]
所述残差模块包括依次设置的两个一维cnn、一个instancenorm和一个glu组成，卷积核尺寸是3，步长为1；
[0026]
所述上采样模块包括依次设置的一个二维cnn、一个上采样单元、一个instancenorm以及一个glu，其中，二维cnn的卷积核尺寸是5，步长调整为1，其中，上采样单元包括依次设置的一个二维cnn、一个pixelshuffle、一个instancenorm和一个glu。
[0027]
进一步地，所述第一判别器和所述第二判别器具有相同的结构，包括依次设置的二维cnn、glu、4组下采样模块、二维cnn以及glu，其中，二维cnn的卷积核尺寸是3，步长为1。
[0028]
进一步地，图像生成模型将原始声音信号转换成声音图像的规则如公式(2)所示：
[0029][0030]
其中，n表示单个语音作为原始声音信号的维度，表示原始声音信号中的第维数据，t
i,j
是原始声音信号的矩阵表达，对其进行归一化后，可生成一个像素矩阵t
′
i,j
，即当前语音时域的图像表达；
[0031]
显著性区域提取模型用于对声音图像进行有效区域提取获得显著性区域图像的方法如下：
[0032]
(1)通过一个宽度为高度的范围是滑动窗口将整张声音图像切分为个区域；
[0033]
(2)滑动窗口从声音图像的原始位置开始，依次扫描每个块的全部区域，同时块间执行差分操作，具体方法如下公式(3)和公式(4)所示：
[0034]
[0035][0036]
其中，t
′
i,j
是利用公式(2)计算获得的归一化像素矩阵，δt
i,j
为差分后的矩阵，显著性区域即此矩阵中的有效数据，二阶差分δδt
i,j
则用于寻找显著性区域的起始和结束位置；
[0037]
(3)添加约束条件用于区分平坦和波动区域，获得的t
start
和t
end
即为最终显著性区域的具体位置，如公式(5)和公式(6)所示；
[0038][0039][0040]
(4)将[t
start
,t
end
]区间内的图像和语音信号同步取出，形成仅含有显著性区域的图像和语音。
[0041]
进一步地，第二损失估计网络通过以下方法计算第二通道的损失：
[0042]
a、通过公式(7)计算对抗损失：
[0043][0044]
其中，生成器记为g
x
→
y
，判别器记为dy，表示对于logd
y
(y)求期望，表示对于log(1
‑
d
y
(g
x
→
y
(x)))求期望，l
adv
(g
x
→
y
,d
y
)表示为对抗的损失；
[0045]
b、通过公式(8)计算循环一致性损失：
[0046][0047]
其中，g
x
→
y
和g
y
→
x
均为生成器，l
cyc
(g
x
→
y
,g
y
→
x
)是循环一致性损失，在计算循环一致性损失时，分别对于||g
y
→
x
(g
x
→
y
(x))
‑
x||1和||g
x
→
y
(g
y
→
x
(y))
‑
y||1求期望，利用了双重映射的正逆关联，循环一致性损失帮助生成器g
x
→
y
和g
y
→
x
以循环的转换形式找到了(x,y)组合的最佳配对；
[0048]
c、通过公式(9)计算身份映射损失：
[0049][0050]
其中，l
id
(g
x
→
y
,g
y
→
x
)是身份映射损失，在计算该损失时时，分别对于||g
y
→
x
(x)
‑
x||1和||g
x
→
y
(y)
‑
y||1求期望，并将这两个期望相加后组成该损失；
[0051]
通过公式(10)对对抗损失、循环一致性损失以及身份映射损失线性组合:
[0052]
l
full2
＝l
adv
(g
x
→
y
,d
y
)+l
adv
(g
y
→
x
,d
x
)+λ
cyc
l
cyc
(g
x
→
y
,g
y
→
x
)+λ
id
l
id
(g
x
→
y
,g
y
→
x
)
ꢀꢀ
(10)
[0053]
其中，l
full2
表示第二通道最终的损失，λ
cyc
和λ
id
是超参数，用于控制相关损失的重要程度；
[0054]
第一损失估计网络通过以下方法计算第一通道的损失：
[0055]
d、通过公式(11)计算第一通道的损失：
[0056]
[0057]
其中：l
full1
是第一通道的损失。
[0058]
进一步地，基于mixup的损失计算模型通过公式(12)进行损失计算：
[0059]
l
full
＝min(λ
loss
l
full1
+(1
‑
λ
loss
)l
full2
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0060]
其中，l
full1
和l
full2
分别代表第一通道和第二通道的损失，λ
loss
∈[0,1]，是服从beta分布的随机数。
[0061]
进一步地，基于mixup的堆叠模型获取由第一通道生成的时频域声学信号并对其进行解码获取转换音色后的声音信号的方法如下：
[0062]
(1)将mel
‑
cepstrum与显著性区域生成的重构图像对齐；
[0063]
(2)依据显著性区域的起始位置和数量，将mel
‑
cepstrum划分为n个区域；
[0064]
(3)将这些区域按照图像像素的均值由大到小排序；
[0065]
(4)计算每个区域的mel
‑
cepstrum表达，第i个区域的表达如下公式所示：
[0066][0067]
其中，mel
new
和mel
org
分别是转换后和转换前的mel
‑
cepstrum，λ
mel
是生成mel
‑
cepstrum的超参数；
[0068]
(5)将每个区域的mel
‑
cepstrum合成语音。
[0069]
与现有技术比较，本发明公开的基于音色的平行语音合成方法具有以下有益效果：由于构建了多通道时频域gan模型、基于mixup的损失计算模型和基于mixup的堆叠模型使得本方法生成的语音的自然度较高；多通道时频域gan和mixup模型生成语音是富有表现力的，进一步表明生成语音不仅可以模拟原有数据集中的音色，而且情感表达更加突出；本方法的生成语音的稳定度高，对于梅尔倒谱参数的容错能力较强；本方法适用于跨语料库、跨语种之间的音色互化和表达，在双向平行转换中实现了语料库的增广，解决语音合成过程中的自然度、鲁棒性、保真性等问题。
附图说明
[0070]
图1为本发明公开的基于音色的平行语音合成方法的流程图；
[0071]
图2为多通道时频域gan模型中第一通道的结构图；
[0072]
图3为生成器的模型结构图；
[0073]
图4为残差模块的结构图；
[0074]
图5为判别器的结构图；
[0075]
图6为多通道时频域gan模型中第二通道的结构图；
[0076]
图7为基于mixup的损失计算的结构图。
具体实施方式
[0077]
如图1所示本发明公开的基于音色的平行语音合成方法，包括以下步骤：
[0078]
构建多通道时频域gan模型，所述多通道时频域gan模型包括第一通道和第二通道，所述第一通道用于对原始声音信号进行时频域声学信号的提取和生成，所述第二通道用于对原始声音信号进行显著性区域时域声学信号的提取和生成；
[0079]
构建基于mixup的损失计算模型，所述基于mixup的损失计算模型用于获取第一通
道和第二通道的损失并对其进行损失计算以调节由第一通道生成的时频域声学信号；
[0080]
构建基于mixup的堆叠模型，所述基于mixup的堆叠模型用于获取由第一通道生成的时频域声学信号并对其进行解码获取转换音色后的声音信号。
[0081]
具体地，多通道时频域gan模型(multi
‑
channel time
‑
frequency domain gans,mc
‑
tfd gans)是语音合成模型的核心组成部分，其中涉及两个并列的gan通道，分别用于时频域声学信号和显著性区域时域声学信息的提取和生成。
[0082]
为了提取不同尺度的声学特性，我们分别设计每个通道的生成器和判别器模型，它们建立在不同的卷积层、门控层、上采样和下采样等单元的组合之上。
[0083]
如图2所示，所述第一通道包括依次设置的预处理网络、第一生成器、第一判别器以及第一损失估计网络；
[0084]
所述预处理网络包括用于对原始声音信号处理生成的梅尔倒谱参数的melgan模型、用于生成随机填充帧叠的随机填充帧生成器以及用于对生成的梅尔倒谱参数和生成的随机填充帧进行叠加以生成含有填充帧的梅尔倒谱参数的叠加器。
[0085]
传统的cyclegan模型采用world声码器实现语音转换，模型训练之前会将语音先转换为频谱包络，针对单个语音，它对应的频谱包络没有足够的能力捕获时频域的关联信息，导致生成语音的音色不够饱满。为了缓解这种情况，本技术使用melgan模型获得每段语音的中间产物，即梅尔倒谱参数(mel
‑
cepstrum)，它具有很强的时频域特性，为了加强这种特性的鲁棒性，本技术将随机的填充帧叠加在原始的mel
‑
cepstrum之上，生成含有填充帧的mel
‑
cepstrum，在此基础上，再设计第一生成器和第一判别器模型，此时的模型被称为maskcyclegan，第一通道的maskcyclegan结构如图2所示，具体的预处理网络对原始声音信号进行预处理的过程在图中用虚线框出。
[0086]
所述预处理网络对原始声音信号处理生成含有填充帧的梅尔倒谱参数的方法如下：
[0087]
(1)melgan模型对原始声音信号x进行处理生成梅尔倒谱参数mel
‑
cepstrum(x)，随机填充帧生成器创建一个与x尺寸相同(即与原始声音信号维度相同)的掩码mask(m)，m中仅包含0或1，m中被叠加区域的值是0，m中未选中区域的值是1；
[0088]
(2)通过公式(1)将随机填充帧m叠加在x上。
[0089][0090]
其中，是掩码后的声音信号，
·
表示元素智能乘积(element
‑
wise product)；掩码mask(m)是一个函数，m是超参数。通过这种叠加，部分帧的信息被抹去。
[0091]
maskcyclegan模型由生成器和判别器构成，在传统的gan模型中，通常利用一维卷积神经网络(cnn)作为生成器，即利用一个逐帧模型进行时间扩展，仅捕获帧内特征间的关系。因此一维cnn有利于捕捉动态整体关系的变化以及特征维数的差异。针对语音类任务，mel
‑
cepstrum特征的维度较高，仅使用一维cnn进行传统的上采样和下采样过程，会产生严重的退化现象。尽管残差模块可以减少这种失真，但是合成语音中仍然可观察到明显的噪声。
[0092]
相比之下，二维cnn更适合在保持原始结构的同时转换声学特征，因为它将转换区域限制为局部区域，加重了原始信息的局部特点。基于此，本技术将一维cnn与二维cnn网络相结合，设计多层次的模型结构，即利用二维cnn实现上采样和下采样，加重局部区域特征，
使用一维cnn实现残差模块，由网络自动过滤无效的声学信号。图2中显示了生成器的网络结构。生成器中包含3组下采样、7组残差模块和3组上采样模块。
[0093]
具体地，如图3和图4所示，所述第一生成器包括依次设置的三组下采样模块、七组残差模块以及三组上采样模块；
[0094]
所述下采样模块包括依次设置的一个二维cnn和一个glu，其中，二维cnn的卷积核尺寸是5，步长为2；
[0095]
所述残差模块包括依次设置的两个一维cnn、两个instancenorm和一个glu组成，其中，一维cnn的卷积核尺寸是3，步长为1；
[0096]
所述上采样模块包括依次设置的一个二维cnn、一个上采样单元、一个instancenorm以及一个glu，其中，二维cnn的卷积核尺寸同样是5，步长调整为1。其中，上采样单元由一个二维cnn、一个pixelshuffle、一个instancenorm和一个glu组成。
[0097]
传统的cyclegan中仅使用2d cnn与全连接层来确定生成样本的真实性。若需获得判别器更加宽范围的感受野，需要提供更多有效的参数，这为模型的训练带来了很大的困难。基于此，本技术在maskcyclegan模型中借助了glu，在加重局部信息的同时，扩充了局部感受野。
[0098]
第一判别器模型中包含2个二维cnn、2个glu和4组下采样模块构成。卷积尺寸与生成器中对应的尺寸相同。其中，在开始和结束位置分别配有一组cnn和glu，判别器网络结构如图5所示。
[0099]
具体地，如图5所示，所述第一判别器包括依次设置的二维cnn、glu、4组下采样模块、二维cnn以及glu，其中，二维cnn的卷积核尺寸是3，步长为1。
[0100]
在第一通道的maskcyclegan中，模型以原始声音信号作为输入，生成基于含有填充帧的mel
‑
cepstrum，用于模型的训练，这种方式重点强调语音信号的时域和频域信息，是语音音色在时间和空间上的一种全局表达。除此之外，为了突出特定音色的表达，可以利用第二通道提取语音中音色最突出的部分区域，将该区域用于模型参数的微调，可以增加生成信号音色的相似度。
[0101]
本技术提出了一种基于显著性区域的时域cyclegan模型，该模型由2个阶段构成，其中第1个阶段用于提取显著性时域区域，第2个阶段使用cyclegan模型实现时域语音合成模型训练。第二通道模的型结构如图6所示。
[0102]
具体地，如图6所示，所述第二通道包括依次设置的显著性时域区域提取模型和时域语音合成模型；
[0103]
所述显著性时域区域提取模型包括用于将原始声音信号转换成声音图像的图像生成模型、用于对声音图像进行有效区域提取获得显著性区域图像的显著性区域提取模型以及用于对显著性区域图像进行处理生成梅尔倒谱参数的melgan模型；
[0104]
所述时域语音合成模型包括第二生成器、第二判别器以及第二损失估计网络。
[0105]
作为显著性音频信号提取的第一个阶段，声学图像重构用于将音频转换为的图像表达，图像生成模型将原始声音信号转换成声音图像的规则如公式(2)所示：
[0106]
[0107]
其中，n表示单个语音作为原始声音信号的维度，表示原始声音信号中的第维数据，t
i,j
是原始声音信号的矩阵表达，对其进行归一化后，可生成一个像素矩阵t
′
i,j
，即当前语音时域的图像表达；
[0108]
寻找音色表达显著性区域方法如下所示，即显著性区域提取模型用于对声音图像进行有效区域提取获得显著性区域图像的方法如下：
[0109]
(1)通过一个宽度为高度的范围是滑动窗口将整张声音图像切分为个区域；
[0110]
(2)滑动窗口从声音图像的原始位置开始，依次扫描每个块的全部区域，同时块间执行差分操作，具体方法如下公式(3)和公式(4)所示：
[0111][0112][0113]
其中，t
′
i,j
是利用公式(2)计算获得的归一化像素矩阵，δt
i,j
为差分后的矩阵，显著性区域即此矩阵中的有效数据，二阶差分δδt
i,j
则用于寻找显著性区域的起始和结束位置；
[0114]
(3)添加约束条件用于区分平坦和波动区域，获得的t
start
和t
end
即为最终显著性区域的具体位置，如公式(5)和公式(6)所示；
[0115][0116][0117]
(4)将[t
start
,t
end
]区间内的图像和语音信号同步取出，形成仅含有显著性区域的图像和语音。
[0118]
在获取显著性区域的基础上，使用cyclegan实现语音合成时域模型的训练和参数的微调。然后将获得的显著性区域的图像表达转化为原始声学信号，然后输入melgan模型获得新语音的mel
‑
cepstrum，与第一通道不同的是，第二通道不再采用含有填充帧的maskcyclegan，而是采用cyclegan模型，第二生成器和第二判别器的模型结构与第一通道的第一生成器和第一判别器一致，此处不再赘述。
[0119]
基于mixup的损失估计：
[0120]
多通道时频域gan中的损失计算，多通道时频域gan模型涉及cyclegan和maskcyclegan模型，它们拥有共同的祖先：cyclegan。cyclegan起源于计算机视觉领域，主要针对非成对源的图像间翻译，它融合了对抗性损失和循环一致性损失。cyclegan的目标是学习映射g
x
→
y
，将x∈x转化为y∈y，而不依赖于其他的相关数据。在语音音色转换过程中，cyclegan补充了身份映射损失。cyclegan中各种损失的计算如下：
[0121]
具体地，第二损失估计网络通过以下方法计算第二通道的损失：
[0122]
a、为了使转换后的新声学特征与原始特征无法区分，此处使用了对抗损失，通过公式(7)计算对抗损失：
[0123][0124]
其中，生成器记为g
x
→
y
，判别器记为dy，表示对于logd
y
(y)求期望，表示对于log(1
‑
d
y
(g
x
→
y
(x)))求期望，判别器是dy通过最大化对抗损失，寻找真实声学特征和转换特征之间的最佳决策边界，而生成器g
x
→
y
通过最小化对抗损失，来生成能够欺骗d
y
的特征；求得l
adv
(g
x
→
y
,d
y
)作为对抗的损失。
[0125]
b、在对抗性损失中仅对于g
x
→
y
(x)提出了要求，即其必须服从目标的分布，但即便如此，它仍然无法保证输入和输出声学特征的一致性，为了正则化映射关系，此处使用了循环一致性损失，通过公式(8)计算循环一致性损失：
[0126][0127]
在公式8中，g
x
→
y
和g
y
→
x
均为生成器，l
cyc
(g
x
→
y
,g
y
→
x
)是循环一致性损失，在计算该损失时时，分别对于||g
y
→
x
(g
x
→
y
(x))
‑
x||1和||g
x
→
y
(g
y
→
x
(y))
‑
y||1求期望，利用了双重映射的正逆关联，提升模型的稳定性，循环一致性损失帮助生成器g
x
→
y
和g
y
→
x
以循环的转换形式找到了(x,y)组合的最佳配对；
[0128]
c、为了进一步保留有效的音色，使用身份映射丢失，通过公式(9)计算身份映射损失：
[0129][0130]
在公式9中，g
x
→
y
和g
y
→
x
均为生成器，l
id
(g
x
→
y
,g
y
→
x
)是身份映射损失，在计算该损失时时，分别对于||g
y
→
x
(x)
‑
x||1和||g
x
→
y
(y)
‑
y||1求期望，并将这两个期望相加后组成该损失。
[0131]
通过公式(10)对对抗损失、循环一致性损失以及身份映射损失线性组合:
[0132]
l
full2
＝l
adv
(g
x
→
y
,d
y
)+l
adv
(g
y
→
x
,d
x
)+λ
cyc
l
cyc
(g
x
→
y
,g
y
→
x
)+λ
id
l
id
(g
x
→
y
,g
y
→
x
)
ꢀꢀ
(10)
[0133]
其中l
full
表示最终的损失，λ
cyc
和λ
id
是超参数，用于控制相关损失的重要程度。
[0134]
基于maskcyclegan的损失计算：
[0135]
在多通道时频域cyclegan中，第一通道中的maskcyclegan与普通的cyclegan的损失计算方法不同，它的目标是学习映射将转化为y∈y。同理，学习映射将y∈y转化为其中，由公式1中获得，它是x和m的组合。
[0136]
第一损失估计网络通过以下方法计算第一通道的损失：
[0137]
d、通过公式(11)计算第一通道的损失：
[0138][0139]
其中：l
full1
是第一通道的损失。l
adv2
、l
cyc2
、l
id2
表示另一组计算得到的损失，计算方法与公式(7)
‑
公式(9)相同。。
[0140]
基于mixup的损失计算：
[0141]
作为一种常见的数据增强技术，mixup在成对示例及其标签的组合上训练神经网络。当前模型结合了mixup和gan来实现语音音色中的特征学习和生成。设计思路如图7所示。分别获得两个通道的cyclegan网络的损失后，使用mixup对两类损失进行线性组合。利
用模型的反馈调节，优化cyclegan的参数，同时最小化以下损失函数。
[0142]
具体地，基于mixup的损失计算模型通过公式(12)进行损失计算：
[0143]
l
full
＝min(λ
loss
l
full1
+(1
‑
λ
loss
)l
full2
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0144]
其中，l
full1
和l
full2
分别代表第一通道和第二通道的损失，λ
loss
∈[0,1]，是服从beta分布的随机数。通过训练时的参数微调，以达到最小的损失。此时只有第一通道的生成器获得输出，它输出的内容是音色转化后的mel
‑
cepstrum。
[0145]
然后通过第一通道生成器生成的mel
‑
cepstrum，进行解码操作，即可生成转换音色后的语音。在语音转换时，可依据音色的动态变化调整转换的效果。具体实现思路如下：
[0146]
(1)将mel
‑
cepstrum与显著性区域生成的重构图像对齐。即针对每个显著性区域，确定区域的起始位置，并在mel
‑
cepstrum中寻找到对应的位置。
[0147]
(2)依据显著性区域的起始位置和数量，将mel
‑
cepstrum划分为n个区域(n表示显著性区域的数量)。
[0148]
(3)打乱mel
‑
cepstrum片段的次序，将这些区域按照图像像素的均值由大到小排序，即第1个区域的显著特征最明显，反之，第n个区域的显著特征最不突出。
[0149]
(4)重新计算每个区域的mel
‑
cepstrum表达，按照不同的级别加重每个mel
‑
cepstrum区域的权重，其中第i个区域的表达如下公式所示：
[0150][0151]
其中，mel
new
和mel
org
分别是转换后和转换前的mel
‑
cepstrum，λ
mel
是生成mel
‑
cepstrum的超参数；
[0152]
(5)利用melgan模型，将每个区域的mel
‑
cepstrum分别合成新的语音片段。
[0153]
对上述区域分段处理，利用melgan模型解码，即可生成新的音色语音，可以有效的表达目标音色。最后将每段生成语音以原有的顺序排列组合，即可生成最终的语音。
[0154]
以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。