← 返回列表
降噪识别联合网络的语音识别方法、装置、设备及介质
申请人信息
- 申请人:深圳市友杰智新科技有限公司
- 申请人地址:518000 广东省深圳市南山区招商街道沿山社区沿山路22号火炬大厦701
- 发明人: 深圳市友杰智新科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 降噪识别联合网络的语音识别方法、装置、设备及介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410145846.8 |
| 申请日 | 2024/2/2 |
| 公告号 | CN117690421A |
| 公开日 | 2024/3/12 |
| IPC主分类号 | G10L15/16 |
| 权利人 | 深圳市友杰智新科技有限公司 |
| 发明人 | 李杰 |
| 地址 | 广东省深圳市南山区招商街道沿山社区沿山路22号火炬大厦701 |
摘要文本
本申请涉及语音识别技术领域,特别是涉及到一种降噪识别联合网络的语音识别方法、装置、设备及介质,其中方法包括:对输入的带噪音频进行傅里叶变换,得到实部和虚部的频域特征;对所述频域特征进行变换,得到FBank特征;将FBank特征经过线性映射后输入到降噪网络中,获取降噪输出结果,其中,所述降噪输出结果为包含实部和虚部的复数掩码;基于目标函数对所述降噪输出结果进行训练,输出降噪后的复数掩码;通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征;将所述FBank特征和所述降噪后FBank特征输入到语音识别网络,计算音素序列。本申请实现对噪声降噪和语音识别的同时优化,提高整体的识别性能和轻量化性能。
专利主权项内容
1.一种降噪识别联合网络的语音识别方法,其特征在于,所述方法包括:对输入的带噪音频进行傅里叶变换,得到实部和虚部的频域特征;对所述频域特征进行变换,得到FBank特征;将FBank特征经过线性映射后输入到降噪网络中,获取降噪输出结果,其中,所述降噪输出结果为包含实部和虚部的复数掩码;基于目标函数对所述降噪输出结果进行训练,输出实部和虚部的降噪后的复数掩码;通过所述降噪后的复数掩码和所述频域特征计算出降噪后的频域特征及降噪后FBank特征;将所述FBank特征和所述降噪后FBank特征输入到语音识别网络,计算音素序列。