语音静音检测方法、装置、计算机设备和存储介质
摘要文本
本发明涉及一种语音静音检测方法、装置、计算机设备和存储介质,包括:接收终端发送的语音数据包,根据所述语音数据包获取原始语音数据,将所述原始语音数据分帧得到待检测语音帧;将所述待检测语音帧进行变换得到对应的频域语音帧;获取当前待检测语音帧对应的当前频域语音帧,根据预设规则获取当前频域语音帧的邻近频域语音帧,将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像;将所述原始输入图像输入经训练得到的目标卷积神经网络,得到分类结果;根据所述分类结果得到所述当前待检测语音帧对应的静音检测结果,提高静音检测结果的可靠性,减少语音数据发送端硬件环境的性能压力。
申请人信息
- 申请人:腾讯科技(深圳)有限公司; 深圳市腾讯计算机系统有限公司
- 申请人地址:518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 发明人: 腾讯科技(深圳)有限公司; 深圳市腾讯计算机系统有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 语音静音检测方法、装置、计算机设备和存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN201710590527.8 |
| 申请日 | 2017年7月19日 |
| 公告号 | CN107393526B |
| 公开日 | 2024年1月2日 |
| IPC主分类号 | G10L15/06 |
| 权利人 | 腾讯科技(深圳)有限公司; 深圳市腾讯计算机系统有限公司 |
| 发明人 | 王辉 |
| 地址 | 广东省深圳市南山区高新区科技中一路腾讯大厦35层; 广东省深圳市南山区高新区科技中一路腾讯大厦35层 |
专利主权项内容
1.一种语音静音检测方法,应用于服务器,所述方法包括:获取测试语音数据,测试语音数据为终端在当前所属环境采集并上传的历史语音数据,所述历史语音数据携带了环境特征,通过携带环境特征的语音数据作为测试语音数据训练卷积神经网络,若当前环境存在噪音,则通过交替地进行卷积和降采样,逐步提取多种复杂特征,从测试语音数据提取与当前环境匹配的特征,训练得到与各个环境匹配的不同的目标卷积神经网络;接收终端发送的语音数据包,根据所述语音数据包获取原始语音数据,将所述原始语音数据分帧得到待检测语音帧,所述语音数据包是终端通过麦克风实时采集并通过流式上传的语音数据包流,流式传输是指数据流中先生成的数据包先传输至服务器或另一个终端,后生成的数据包在生成后也直接发送至服务器或另一个终端,无需等待整个语音数据流结束才进行数据包的传输;将所述待检测语音帧进行变换得到对应的频域语音帧;获取当前待检测语音帧对应的当前频域语音帧,根据预设规则获取所述当前频域语音帧的邻近频域语音帧,包括:获取当前频域语音帧的前向和后向的频域语音帧得到邻近频域语音帧,将当前频域语音帧与邻近频域语音帧按时间顺序形成原始输入图像;获取已建立的环境特征与目标卷积神经网络的对应关系,所述对应关系是所述服务器建立的,在环境中进行静音检测时,提取当前环境的当前环境特征,根据所述环境特征与目标卷积神经网络的对应关系,获取与当前环境对应的目标卷积神经网络,将所述原始输入图像输入经训练得到的与当前环境对应的目标卷积神经网络,得到分类结果,不同的环境下对应的测试语音数据不同,从而训练得到与各个环境匹配的不同的目标卷积神经网络;根据所述分类结果得到所述当前待检测语音帧对应的静音检测结果,连续静音帧组成静音帧集合,如果静音帧集合对应的静音时长超过预设时长,则停止语音识别,生成停止控制指令,将所述停止控制指令发送至终端,以使终端停止上传语音数据包,对于已接收的语音数据也停止解码和识别。 (来自 马克数据网)