← 返回列表

一种语音合成方法、装置、电子设备及存储介质

申请号: CN202410223913.3
申请人: 暗物智能科技(广州)有限公司; 暗物质(北京)智能科技有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 一种语音合成方法、装置、电子设备及存储介质
专利类型 发明申请
申请号 CN202410223913.3
申请日 2024/2/29
公告号 CN117809621A
公开日 2024/4/2
IPC主分类号 G10L13/08
权利人 暗物智能科技(广州)有限公司; 暗物质(北京)智能科技有限公司
发明人 张硕; 苏江
地址 广东省广州市南沙区金隆路37号16层; 北京市丰台区西四环南路101号6层6053号

摘要文本

本申请提供了一种语音合成方法、装置、电子设备及存储介质,包括:将目标文本信息输入至预测器之中,确定出文本向量、发音时长特征以及基频特征;将目标提示音频输入至音频神经网络编解码器模型之中,基于多个残差量化器对目标提示音频进行音频压缩,输出每个残差量化器学习到的音频特征;将文本向量、发音时长特征、基频特征以及残差量化器学习到的音频特征输入至神经网络语言模型之中,基于神经网络语言模型的一个自回归解码器以及多个非自回归解码器进行注意力处理,输出目标特征序列;将目标特征序列输入至音频神经网络编解码器模型之中,生成目标合成语音。实现了可以通过零样本学习就可以复刻某个指定人的声音,提高语音合成的效果。

专利主权项内容

1.一种语音合成方法,其特征在于,所述语音合成方法包括:将目标文本信息输入至语音合成系统的预测器之中,对所述目标文本信息进行处理,确定出文本向量、发音时长特征以及基频特征;将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中,基于多个残差量化器对所述目标提示音频进行音频压缩,输出每个所述残差量化器学习到的音频特征;将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中,基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理,输出目标特征序列;其中,解码器的数量与所述残差量化器的数量相一致;将所述目标特征序列输入至所述音频神经网络编解码器模型之中,对所述目标特征序列进行处理,生成目标合成语音;其中,所述目标合成语音的内容为所述目标文本信息,音色为所述目标提示音频。