← 返回列表

单通道语音增强模型的训练方法、装置、设备及存储介质

申请号: CN202311511028.7
申请人: 广州大学
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 单通道语音增强模型的训练方法、装置、设备及存储介质
专利类型 发明申请
申请号 CN202311511028.7
申请日 2023/11/13
公告号 CN117558288A
公开日 2024/2/13
IPC主分类号 G10L21/0216
权利人 广州大学
发明人 杨柳; 毛忌; 翁士龙; 周昱彬
地址 广东省广州市番禺区广州大学城外环西路230号

摘要文本

广州大学获取“一种透气窗帘布”专利技术,本发明提供了一种单通道语音增强模型的训练方法、装置、设备及存储介质,其中,方法包括:步骤1,生成带噪音频谱;步骤2,计算初始幅度谱和初始相位谱,将初始相位谱转化为差分平方相位谱;步骤3,将初始幅度谱依次输入幅度编码器和幅度模块,得到分解时频注意力特征,将差分平方相位谱输入相位编码器和相位模块,得到差分平方相位特征;步骤4,通过分解时频注意力特征和差分平方相位特征交互,得到交互后时频特征和交互后相位特征;步骤5,将交互后时频特征输入掩码解码器得到增强幅度谱,将交互后相位特征输入相位解码器得到增强相位谱,计算总损失更新模型参数;步骤6,多轮次迭代,每轮次迭代分批次重复步骤2至5。

专利主权项内容

1.一种单通道语音增强模型的训练方法,其特征在于,包括:步骤1,生成用于训练的带噪音频谱的集合;步骤2,获取所述带噪音频谱,计算所述带噪音频谱对应的初始幅度谱和初始相位谱,将所述初始相位谱转化为差分平方相位谱;步骤3,将所述初始幅度谱依次输入幅度分支对应的幅度编码器和幅度模块,得到分解时频注意力特征,将所述差分平方相位谱输入相位分支对应的相位编码器和相位模块,得到差分平方相位特征;步骤4,通过所述分解时频注意力特征和所述差分平方相位特征间的交互计算,得到交互后时频特征和交互后相位特征;步骤5,将所述交互后时频特征输入幅度分支对应的掩码解释器,得到增强幅度谱,将所述交互后相位特征输入相位分支对应的相位解码器,得到增强相位谱,根据所述增强幅度谱和所述增强相位谱计算总损失,更新模型参数;步骤6,进行多个轮次迭代,在每个轮次迭代中分批次重复所述步骤2至所述步骤5进行迭代训练,轮次迭代执行结束后得到训练好的单通道语音增强模型。 更多数据: