一种语音合成方法、装置、电子设备及存储介质

申请号: CN202410223913.3

申请人: 暗物智能科技(广州)有限公司; 暗物质(北京)智能科技有限公司

更新日期: 2026-03-17

摘要文本

暗物智能科技(广州)有限公司; 暗物质(北京)智能科技有限公司取得“一种透气窗帘布”专利技术，本申请提供了一种语音合成方法、装置、电子设备及存储介质，包括：将目标文本信息输入至预测器之中，确定出文本向量、发音时长特征以及基频特征；将目标提示音频输入至音频神经网络编解码器模型之中，基于多个残差量化器对目标提示音频进行音频压缩，输出每个残差量化器学习到的音频特征；将文本向量、发音时长特征、基频特征以及残差量化器学习到的音频特征输入至神经网络语言模型之中，基于神经网络语言模型的一个自回归解码器以及多个非自回归解码器进行注意力处理，输出目标特征序列；将目标特征序列输入至音频神经网络编解码器模型之中，生成目标合成语音。实现了可以通过零样本学习就可以复刻某个指定人的声音，提高语音合成的效果。

专利主权项内容

1.一种语音合成方法，其特征在于，所述语音合成方法包括：将目标文本信息输入至语音合成系统的预测器之中，对所述目标文本信息进行处理，确定出文本向量、发音时长特征以及基频特征；将目标提示音频输入至语音合成系统的音频神经网络编解码器模型之中，基于多个残差量化器对所述目标提示音频进行音频压缩，输出每个所述残差量化器学习到的音频特征；将所述文本向量、所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频输入至语音合成系统的神经网络语言模型之中，基于所述神经网络语言模型的一个自回归解码器以及多个非自回归解码器对所述发音时长特征、所述基频特征、第一个所述残差量化器学习到的音频特征以及所述目标提示音频进行注意力处理，输出目标特征序列；其中，解码器的数量与所述残差量化器的数量相一致；将所述目标特征序列输入至所述音频神经网络编解码器模型之中，对所述目标特征序列进行处理，生成目标合成语音；其中，所述目标合成语音的内容为所述目标文本信息，音色为所述目标提示音频。

专利申请信息

项目	内容
专利名称	一种语音合成方法、装置、电子设备及存储介质
专利类型	发明申请
申请号	CN202410223913.3
申请日	2024/2/29
公告号	CN117809621A
公开日	2024/4/2
IPC主分类号	G10L13/08
权利人	暗物智能科技(广州)有限公司; 暗物质(北京)智能科技有限公司
发明人	张硕; 苏江
地址	广东省广州市南沙区金隆路37号16层; 北京市丰台区西四环南路101号6层6053号

一种语音合成方法、装置、电子设备及存储介质

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种语音合成方法、装置、电子设备及存储介质

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

基于图卷积属性聚合的专利聚类方法和系统

模型文件的存储方法、装置、电子设备及可读存储介质

动态分表方法、装置、设备及存储介质

一种加工中心控制方法及系统

一种压力容器设备的大法兰焊接用椭圆度调整工装

一种可扩展的CDC方式达梦数据库同步系统及其应用

热门技术领域

快速入口

专利技术资料