一种基于低秩适应的个性化语音合成方法
摘要文本
本发明涉及语音合成技术领域,公开了一种基于低秩适应的个性化语音合成方法,包括以下步骤:获取具有多个音频文件的音频数据集;构建基础合成模型并进行训练;构建低秩适应网络并进行训练;进行推理;本发明通过低秩适应快速地训练个性化解码器,实现定制化需求,同时加入F0预测器来提取丰富的音频特征,并应用于解码器的训练以及后验概率分布的采样点生成中,以此来生成更加贴合原声的音频。
申请人信息
- 申请人:合肥工业大学
- 申请人地址:230009 安徽省合肥市包河区屯溪路193号
- 发明人: 合肥工业大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于低秩适应的个性化语音合成方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410120426.4 |
| 申请日 | 2024/1/29 |
| 公告号 | CN117649839A |
| 公开日 | 2024/3/5 |
| IPC主分类号 | G10L13/027 |
| 权利人 | 合肥工业大学 |
| 发明人 | 汤杰辉; 刘学亮; 蔡驿晨; 张金炎; 叶雨露 |
| 地址 | 安徽省合肥市屯溪路193号 |
专利主权项内容
1.一种基于低秩适应的个性化语音合成方法,包括以下步骤:步骤一,获取具有多个音频文件的音频数据集;步骤二,构建基础合成模型并进行训练,具体包括:基础合成模型用于将输入的文本转成合成音频,包括后验编码器、标准化流、解码器、判别器、文本编码器和多周期随机时长预测器;通过由多组Transformer块组成的文本编码器得到文本/>的先验隐变量/>,并将/>映射为先验概率分布/>;将音频文件转为梅尔频率/>,再将梅尔频谱转为线性谱;提取音频文件中的音高信息;通过后验编码器处理线性谱/>,生成后验概率分布,并进行上采样,得到后验概率分布的采样点/>;其中,/>表示后验隐变量;通过标准化流/>将后验概率分布的采样点/>映射到复杂概率分布,通过强制对齐的方式得到后验概率分布/>与先验概率分布/>的对齐关系/>;对齐关系/>表示每一个音素的发音时长;基于先验隐变量/>和对齐关系/>,采用所述多周期随机时长预测器输出为音素时长的对数表示;将后验概率分布的采样点/>以及所述的音高信息输入到解码器中,得到合成音频;判别器采用对抗生成网络的网络结构,对合成音频的真实性进行分类;通过基于梅尔频谱得到的重建损失、用于度量后验概率分布和先验概率分布之间距离的KL散度、多周期随机时长预测器的预测损失、判别器的对抗生成网络进行对抗训练时的最小二乘损失以及施加于解码器的特征匹配损失,对基础合成模型进行训练;步骤三,构建低秩适应网络并进行训练:基于所述解码器构建低秩适应网络;所述解码器包括卷积层和多感受野融合模块,对完成训练的基础合成模型的解码器中的权重矩阵进行低秩分解,更新解码器中的权重矩阵,具体包括:将卷积层和多感受野融合模块的权重矩阵重新排列成二维的权重矩阵;通过奇异值分解方法将二维的权重矩阵分解为矩阵的乘积,其中/>和/>是正交矩阵,/>是对角矩阵,/>中包含奇异值;截断对角矩阵/>,保留前M个最大的奇异值,M为设定值;使用截断后的对角矩阵/>,与正交矩阵/>构建新的权重矩阵,并替换原本的权重矩阵;使用音频数据集对低秩适应网络进行训练,调整低秩适应网络的参数;步骤四,推理过程:将文本输入至完成训练的基础合成模型,基础合成模型根据文本编码器和多周期随机时长预测器获得音素时长的对数表示以及先验概率分布,再经过标准化流的逆变换获得后验概率分布的采样点/>;将后验概率分布的采样点/>输入到完成训练的低秩适应网络中,生成合成音频。