← 返回列表

语音增强方法

申请号: CN201810827229.0
申请人: 中国科学技术大学; 北京三星通信技术研究有限公司
申请日期: 2018/7/25

摘要文本

本发明公开了一种语音增强方法,包括:提取各语音帧的声学特征;利用干净语音的与噪声语音的样本对渐进式双输出神经网络模型进行训练,利用训练后的渐进式双输出神经网络模型估计各语音帧的理想软掩蔽,并进行声学特征的增强处理;如果应用到人耳,则利用增强后的声学特征对波形进行重构,得到可主观测听的波形;如果应用到语音识别系统,则将估计到的理想软掩蔽应用到输入语音的声学特征上上,得到掩蔽后的声学特征,然后对波形进行重构得到增强后的语音。本发明上述方案可以满足人耳降噪需求和提升带噪语音的识别准确率。

专利详细信息

项目 内容
专利名称 语音增强方法
专利类型 发明授权
申请号 CN201810827229.0
申请日 2018/7/25
公告号 CN110767244B
公开日 2024/3/29
IPC主分类号 G10L21/02
权利人 中国科学技术大学; 北京三星通信技术研究有限公司
发明人 杜俊; 高天; 屠彦辉; 王立众; 杨磊; 徐学淼
地址 安徽省合肥市包河区金寨路96号; 北京市朝阳区太阳宫中路12A太阳宫大厦18层

专利主权项内容

1.一种语音增强方法,其特征在于,包括:提取各语音帧的声学特征;利用干净语音的与噪声语音的样本对渐进式双输出神经网络模型进行训练,利用训练后的渐进式双输出神经网络模型估计各语音帧的理想软掩蔽,并进行声学特征的增强处理;应用到人耳,则利用增强后的声学特征对波形进行重构,得到可主观测听的波形,包括:首先,计算上式中,为实数域上的定义,表示增强后的对数功率谱特征,/>也是增强后的对数功率谱特征,为复数域上的定义;∠Y(d)是指从输入语音中得到的相位信息;然后,反向离散傅里叶变换重构得到增强后的时域语音其中,L为提取各语音帧的声学特征时做离散傅里叶变换的点数;最后,通过重叠相加算法合成整个句子的波形。 来源:百度马 克 数据网