← 返回列表
方言流式语音识别方法、装置、电子设备及存储介质
申请人信息
- 申请人:联通(广东)产业互联网有限公司
- 申请人地址:510000 广东省广州市黄埔区中新广州知识城亿创街1号406房之555
- 发明人: 联通(广东)产业互联网有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 方言流式语音识别方法、装置、电子设备及存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410044548.X |
| 申请日 | 2024/1/12 |
| 公告号 | CN117558265A |
| 公开日 | 2024/2/13 |
| IPC主分类号 | G10L15/06 |
| 权利人 | 联通(广东)产业互联网有限公司 |
| 发明人 | 吕召彪; 赵文博; 肖清; 许程冲 |
| 地址 | 广东省广州市黄埔区(中新广州知识城)亿创街1号406房之555 |
摘要文本
本发明提供一种方言流式语音识别方法、装置、电子设备及存储介质,其中方法包括:分别调整预训练语音识别模型的注意力机制和卷积感受野,以将其进行流式化处理;在流式化的预训练语音识别模型中引入蒸馏损失,以实现非流式模型至流式模型的知识迁移;对目标方言语音对应的方言语音样本进行预处理并分段,并利用分段的方言语音样本对经知识迁移的预训练语音识别模型进行微调训练,获取目标方言语音识别模型;将目标方言语音进行预处理并分段后,将分段的目标方言语音输入所述目标方言语音识别模型,以获取对目标方言语音的识别结果。本发明通过对预训练语音识别模型进行流式化处理,并利用知识迁移进行辅助,能够显著提升流式模型的识别精度。
专利主权项内容
1.一种方言流式语音识别方法,其特征在于,包括:在结构上分别对预训练语音识别模型的注意力机制和卷积感受野进行调整,以将所述预训练语音识别模型进行流式化处理;在流式化的预训练语音识别模型中引入蒸馏损失,以实现非流式的预训练语音识别模型至所述流式化的预训练语音识别模型间的知识迁移;对目标方言语音对应的方言语音样本进行预处理并按音频采样点进行分段后,利用分段的方言语音样本对经知识迁移的预训练语音识别模型进行微调训练,获取目标方言语音识别模型;将所述目标方言语音进行预处理并按音频采样点进行分段后,将分段的目标方言语音输入所述目标方言语音识别模型,以利用所述目标方言语音识别模型获取对所述目标方言语音的识别结果。