← 返回列表

一种语音合成方法、装置、设备及存储介质

申请号: CN202410173559.8
申请人: 翌东寰球(深圳)数字科技有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 一种语音合成方法、装置、设备及存储介质
专利类型 发明申请
申请号 CN202410173559.8
申请日 2024/2/7
公告号 CN117727288A
公开日 2024/3/19
IPC主分类号 G10L13/047
权利人 翌东寰球(深圳)数字科技有限公司
发明人 廖少毅; 王匡兰; 董伟
地址 广东省深圳市南山区粤海街道高新区社区粤兴一道8号香港城市大学产学研大楼203C

摘要文本

本申请实施例公开了一种语音合成方法、装置、设备及存储介质,该方法包括:获取文本信息,以及说话人嵌入信息和语言嵌入信息,说话人嵌入信息用于指示基于说话人的语音特征将文本信息进行语音合成,语言嵌入信息指示对文本信息进行语音合成的语言类型;对说话人嵌入信息进行特征提取,得到说话人的语音特征;对文本信息进行编码,得到文本信息的离散编码向量;在优化后的嵌入空间中查找与语言嵌入信息指示的语言类型匹配,且与离散编码向量的距离最近的嵌入向量;基于说话人的语音特征对嵌入向量进行解码,得到文本信息的音频数据。采用本申请实施例,能够确保语音合成得到的音频数据更加拟人化,更加贴近说话人的语音和发音方式。

专利主权项内容

1.一种语音合成方法,其特征在于,包括:获取文本信息,以及说话人嵌入信息和语言嵌入信息;其中,所述说话人嵌入信息用于指示基于说话人的语音特征将所述文本信息进行语音合成,所述语言嵌入信息指示对所述文本信息进行语音合成的语言类型;对所述说话人嵌入信息进行特征提取,得到所述说话人的语音特征;对所述文本信息进行编码,得到所述文本信息的离散编码向量;在优化后的嵌入空间中查找与所述语言嵌入信息指示的语言类型匹配,且与所述离散编码向量的距离最近的嵌入向量;基于所述说话人的语音特征对所述嵌入向量进行解码,得到所述文本信息的音频数据;其中,所述音频数据的语音特征与所述说话人的语音特征匹配,且所述音频数据的语言类型与所述语言嵌入信息指示的语言类型一致。