一种语音合成方法、装置、设备及存储介质

申请号: CN202410173559.8

申请人: 翌东寰球(深圳)数字科技有限公司

更新日期: 2026-03-17

摘要文本

翌东寰球(深圳)数字科技有限公司取得“一种透气窗帘布”专利技术，本申请实施例公开了一种语音合成方法、装置、设备及存储介质，该方法包括：获取文本信息，以及说话人嵌入信息和语言嵌入信息，说话人嵌入信息用于指示基于说话人的语音特征将文本信息进行语音合成，语言嵌入信息指示对文本信息进行语音合成的语言类型；对说话人嵌入信息进行特征提取，得到说话人的语音特征；对文本信息进行编码，得到文本信息的离散编码向量；在优化后的嵌入空间中查找与语言嵌入信息指示的语言类型匹配，且与离散编码向量的距离最近的嵌入向量；基于说话人的语音特征对嵌入向量进行解码，得到文本信息的音频数据。采用本申请实施例，能够确保语音合成得到的音频数据更加拟人化，更加贴近说话人的语音和发音方式。

专利主权项内容

1.一种语音合成方法，其特征在于，包括：获取文本信息，以及说话人嵌入信息和语言嵌入信息；其中，所述说话人嵌入信息用于指示基于说话人的语音特征将所述文本信息进行语音合成，所述语言嵌入信息指示对所述文本信息进行语音合成的语言类型；对所述说话人嵌入信息进行特征提取，得到所述说话人的语音特征；对所述文本信息进行编码，得到所述文本信息的离散编码向量；在优化后的嵌入空间中查找与所述语言嵌入信息指示的语言类型匹配，且与所述离散编码向量的距离最近的嵌入向量；基于所述说话人的语音特征对所述嵌入向量进行解码，得到所述文本信息的音频数据；其中，所述音频数据的语音特征与所述说话人的语音特征匹配，且所述音频数据的语言类型与所述语言嵌入信息指示的语言类型一致。

专利申请信息

项目	内容
专利名称	一种语音合成方法、装置、设备及存储介质
专利类型	发明申请
申请号	CN202410173559.8
申请日	2024/2/7
公告号	CN117727288A
公开日	2024/3/19
IPC主分类号	G10L13/047
权利人	翌东寰球(深圳)数字科技有限公司
发明人	廖少毅; 王匡兰; 董伟
地址	广东省深圳市南山区粤海街道高新区社区粤兴一道8号香港城市大学产学研大楼203C

一种语音合成方法、装置、设备及存储介质

摘要文本

专利主权项内容

专利申请信息

热门技术领域

快速入口

专利技术资料

一种语音合成方法、装置、设备及存储介质

摘要文本

专利主权项内容

专利申请信息

相关专利推荐

一种沟槽型MOSFET及制备方法

一种多媒体数据的标签分类方法、装置、设备及介质

智能手表的集中连接调试方法及系统

备份数据校验方法、装置、设备及存储介质

监控方法、装置、存储介质及计算机设备

三维对象的姿态补全方法、装置、设备、存储介质及产品

热门技术领域

快速入口

专利技术资料