基于对比学习的语音合成模型训练方法、装置及合成方法
摘要文本
本申请提供一种基于对比学习的语音合成模型训练方法、装置及合成方法,所述方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本申请能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
申请人信息
- 申请人:北京邮电大学
- 申请人地址:100876 北京市海淀区西土城路10号
- 发明人: 北京邮电大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于对比学习的语音合成模型训练方法、装置及合成方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311358990.1 |
| 申请日 | 2023/10/19 |
| 公告号 | CN117392972A |
| 公开日 | 2024/1/12 |
| IPC主分类号 | G10L13/10 |
| 权利人 | 北京邮电大学 |
| 发明人 | 李雅; 邓雅月; 薛锦隆; 高迎明; 王风平 |
| 地址 | 北京市海淀区西土城路10号 |
专利主权项内容
1.一种基于对比学习的语音合成模型训练方法,其特征在于,包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及所述历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,所述目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自所述对话数据集中的历史样本集中的各个样本之后选取;基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音;基于所述目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标合成语音的损失,并基于该损失、所述文本损失和所述语音损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型。