一种自适应近远场的离线语音命令词识别方法、系统及介质
摘要文本
深圳昱拓智能有限公司取得“一种透气窗帘布”专利技术,本发明公开了一种自适应近远场的离线语音命令词识别方法、系统及介质,方法包括:以指定的时间间隔获取语音数据片段并更新语音数据,对语音数据音量自适应增强后进行唤醒识别,若能识别则提取人声部分,保存人声部分特征与识别词,若无法识别则提取人声部分,将人声部分特征与已保存的人声部分特征进行匹配,将匹配结果的识别词作为唤醒词;若识别到唤醒词,获取新的语音数据,对语音数据音量自适应增强后进行命令识别,若能识别则提取人声部分,保存人声部分特征与识别词,若无法识别则提取人声部分,将人声部分特征与已保存的人声部分特征进行匹配,将匹配结果的识别词作为命令词。本发明解决了近远场不定环境下,远场声音难以识别的问题。
专利主权项内容
1.一种自适应近远场的离线语音命令词识别方法,其特征在于,包括以下步骤:S101)以指定的时间间隔获取语音数据片段并更新语音数据,对语音数据音量自适应增强后进行唤醒识别,若能识别,提取人声部分,并保存人声部分特征和识别词,若无法识别,提取人声部分,并将人声部分特征与已保存的人声部分特征进行匹配,将匹配结果对应的识别词作为唤醒词识别结果;S102)若识别到唤醒词,获取新的语音数据,对语音数据音量自适应增强后进行命令识别,若能识别,提取人声部分,并保存人声部分特征和识别词,若无法识别,提取人声部分,并将人声部分特征与已保存的人声部分特征进行匹配,将匹配结果对应的识别词作为命令词识别结果;步骤S101与步骤S102中,保存人声部分特征和识别词时,包括:S501)获取语音数据识别后的识别词与置信度c1;S502)若置信度c1大于预设的第一阈值,提取对应人声部分的特征矩阵t1;S503)获取备份库中已保存的相同识别词的特征矩阵tn,计算特征矩阵t1与特征矩阵tn的相似度;S504)若特征矩阵t1与特征矩阵tn的相似度大于预设的第二阈值,且置信度c1大于相同识别词的置信度cn,将备份库中的所述识别词的置信度cn和特征矩阵tn分别更新为置信度c1和特征矩阵t1;若特征矩阵t1与特征矩阵tn的相似度小于预设的第三阈值,将置信度c1和特征矩阵t1保存在备份库中。
专利申请信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种自适应近远场的离线语音命令词识别方法、系统及介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311735038.9 |
| 申请日 | 2023/12/18 |
| 公告号 | CN117437913B |
| 公开日 | 2024/3/19 |
| IPC主分类号 | G10L15/20 |
| 权利人 | 深圳昱拓智能有限公司 |
| 发明人 | 余倬先; 樊绍胜; 欧阳峰; 宋运团; 孙文敏; 余震; 冷望 |
| 地址 | 广东省深圳市龙华区民治街道北站社区鸿荣源北站中心B塔2107 |