← 返回列表

语音转换方法及装置、存储介质、电子装置

申请号: CN202311826046.4
申请人: 南京硅基智能科技有限公司
更新日期: 2026-03-10

专利详细信息

项目 内容
专利名称 语音转换方法及装置、存储介质、电子装置
专利类型 发明申请
申请号 CN202311826046.4
申请日 2023/12/28
公告号 CN117476027A
公开日 2024/1/30
IPC主分类号 G10L21/013
权利人 南京硅基智能科技有限公司
发明人 司马华鹏; 姚奥; 汤毅平
地址 江苏省南京市雨花台区凤信路20号万博科技园C号楼4层

摘要文本

本申请实施例提供了一种语音转换方法及装置、存储介质、电子装置,所述方法包括:获取待转换的原始语音与目标说话人的目标语音样本;通过音频特征编码模块识别所述目标语音样本的风格类别,并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征;通过风格特征编码模块获取所述目标语音样本的风格特征;将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的风格特征进行融合映射得到联合编码特征;对所述联合编码特征进行标准流化操作后解码,得到与所述目标说话人的说话风格对应的目标语音特征,并基于所述目标语音特征对所述原始语音进行转换,得到目标语音。

专利主权项内容

1.一种语音转换方法,其特征在于,包括:获取待转换的原始语音与目标说话人的目标语音样本;通过音频特征编码模块识别所述目标语音样本的风格类别,并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征;其中,所述目标音频特征包含所述目标语音样本的文本特征、韵律特征和音色特征;通过所述音频特征编码模块提取所述原始语音的原始音频特征,其中,所述原始音频特征包含所述原始语音的文本特征、韵律特征和音色特征;通过风格特征编码模块获取所述目标语音样本的第一风格特征,并根据所述第一风格特征确定所述目标语音样本的第二风格特征;其中,所述第一风格特征用于指示所述目标语音样本的静态声音特性,所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值;将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的第二风格特征进行融合映射得到联合编码特征;对所述联合编码特征进行标准流化操作后解码,得到与所述目标说话人的说话风格对应的目标语音特征,并基于所述目标语音特征对所述原始语音进行转换,得到目标语音。