一种音频处理方法、装置、设备及可读存储介质
摘要文本
本发明实施例提供了一种音频处理方法、装置、设备及可读存储介质,该方法包括:预先依据获取到的各语音频段误差对应的权重信息,训练语音增强模型;在接收到混合语音信号后,依据所述语音增强模型中各语音频段对应的权重偏置参数,对所述混合语音信号进行语音增强,得到目标语音信号,其中,所述权重偏置参数为依据所述权重信息训练得到的;依据所述目标语音信号进行输出。本发明实施例解决了现有语音增强模型对各语音频段一视同仁导致降噪效果差的问题,提升了语音增强效果。
申请人信息
- 申请人:北京搜狗科技发展有限公司
- 申请人地址:100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间
- 发明人: 北京搜狗科技发展有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种音频处理方法、装置、设备及可读存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN201810589891.7 |
| 申请日 | 2018年6月8日 |
| 公告号 | CN110580910B |
| 公开日 | 2024年4月26日 |
| IPC主分类号 | G10L21/02 |
| 权利人 | 北京搜狗科技发展有限公司 |
| 发明人 | 文仕学; 潘逸倩 |
| 地址 | 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 |
专利主权项内容
1.一种音频处理方法,其特征在于,包括:预先依据获取到的各语音频段误差对应的权重信息,训练语音增强模型;在接收到混合语音信号后,依据所述语音增强模型中各语音频段对应的权重偏置参数,对所述混合语音信号进行语音增强,得到目标语音信号,其中,所述权重偏置参数为依据所述权重信息训练得到的;依据所述目标语音信号进行输出;所述预先依据获取到的各语音频段误差对应的权重信息,训练语音增强模型,包括:针对接收到的语音信号,获取预设的各语音频段误差对应的权重信息;依据所述各语音频段误差对应的权重信息和所述语音信号进行模型训练,得到语音增强模型;依据所述各语音频段误差对应的权重信息和所述语音信号进行模型训练,得到语音增强模型,包括:为所述语音信号添加噪声信号,生成带噪语音信号;对所述带噪语音信号进行特征提取,得到所述带噪语音数据对应的语音特征;基于所述语音特征,采用所述带噪语音信号、所述语音信号以及所述各语音频段误差对应的权重信息进行模型训练,得到语音增强模型;所述采用所述带噪语音信号、所述语音信号以及所述各语音频段误差对应的权重信息进行模型训练,得到语音增强模型,包括:确定所述带噪语音信号对应的输出估计信号;依据所述语音信号,确定所述输出估计信号对应的输出预测误差;依据所述语音频段误差对应的权重信息,对所述输出预测误差进行自适应处理,得到各语音频段对应的语音增强误差;依据所述各语音频段对应的语音增强误差,确定各语音频段对应的权重偏置参数;依据所述各语音频段对应的权重偏置参数,生成语音增强模型。