← 返回列表

基于大模型的语音生成方法及装置、存储介质、电子装置

申请号: CN202410191016.9
申请人: 青岛海尔科技有限公司; 青岛海尔智能家电科技有限公司; 海尔优家智能科技(北京)有限公司
更新日期: 2026-03-16

专利详细信息

项目 内容
专利名称 基于大模型的语音生成方法及装置、存储介质、电子装置
专利类型 发明申请
申请号 CN202410191016.9
申请日 2024/2/21
公告号 CN117746834A
公开日 2024/3/22
IPC主分类号 G10L13/10
权利人 青岛海尔科技有限公司; 青岛海尔智能家电科技有限公司; 海尔优家智能科技(北京)有限公司
发明人 邓邱伟; 王迪; 栾天祥; 韩硕; 李晓琳
地址 山东省青岛市崂山区海尔路1号海尔工业园; 山东省青岛市崂山区海尔工业园内; 北京市海淀区知春路106号太平洋国际大厦6层601-606室

摘要文本

本申请公开了一种基于大模型的语音生成方法及装置、存储介质、电子装置,涉及语音处理领域,上述方法包括:对目标对象输入的用户指令进行解析,以确定用户指令对应的语言风格信息,并生成语言风格信息对应的第一语音;确定第一语音的第一梅尔频谱和第二语音的第二梅尔频谱;根据第一梅尔频谱提取第一语音的第一音色向量;以及根据第二梅尔频谱提取第二语音的第二音色向量;删除第一语音对应的第一语音向量中的第一音色向量,得到第二语音向量,并在第二语音向量中添加第二语音对应的第二音色向量,以生成第三语音,将第三语音确定为语音助手输出的语音,基于上述方案,解决了现有技术中语音助手语料库单调,缺乏语言风格上的变化等问题。

专利主权项内容

1.一种基于大模型的语音生成方法,其特征在于,包括:对目标对象输入的用户指令进行解析,以确定所述用户指令对应的语言风格信息,并生成所述语言风格信息对应的第一语音;其中,所述用户指令用于指示语音助手的语言风格信息;确定所述第一语音的第一梅尔频谱和第二语音的第二梅尔频谱,其中,所述第二语音为所述目标对象基于所述大模型对应的麦克风阵列输入的音频,或者,所述第二语音为所述目标对象上传的音频;根据所述第一梅尔频谱提取所述第一语音的第一音色向量;以及根据所述第二梅尔频谱提取所述第二语音的第二音色向量;删除第一语音向量中的第一音色向量,得到第二语音向量,并在所述第二语音向量中添加所述第二语音对应的第二音色向量,以生成第三语音,将所述第三语音确定为所述语音助手输出的语音,其中,所述第一语音向量为基于所述第一语音生成的语音向量。