← 返回列表

一种语音检测方法、装置、设备及可读存储介质

申请号: CN202310125255.X
申请人: 书行科技(北京)有限公司
申请日期: 2023/2/7

摘要文本

本申请实施例公开了一种语音检测方法、装置、设备及可读存储介质,其中,方法包括:获取图像数据集,基于该图像数据集确定与该图像数据集关联的音频数据中的起始语音对应的第一数据帧,该图像数据集包括第二数据帧对应的图像数据,该第二数据帧为该第一数据帧或者该第一数据帧之后的任一数据帧;获取第二数据帧对应的图像数据的图像特征,以及该第二数据帧对应的音频数据的音频特征;基于该第二数据帧对应的图像特征和该第二数据帧对应的音频特征,确定该第二数据帧对应的语音检测结果,该语音检测结果用于指示该第二数据帧存在语音的概率。采用本申请实施例,可以提升语音检测准确性。 关注公众号专利查询网

专利详细信息

项目 内容
专利名称 一种语音检测方法、装置、设备及可读存储介质
专利类型 发明申请
申请号 CN202310125255.X
申请日 2023/2/7
公告号 CN117746888A
公开日 2024/3/22
IPC主分类号 G10L25/03
权利人 书行科技(北京)有限公司
发明人 武倩平
地址 北京市朝阳区安定路5号院5号楼18层01单元

专利主权项内容

1.一种语音检测方法,其特征在于,所述方法包括:获取图像数据集,基于所述图像数据集确定与所述图像数据集关联的音频数据中的起始语音对应的第一数据帧,所述图像数据集包括第二数据帧对应的图像数据,所述第二数据帧为所述第一数据帧或者所述第一数据帧之后的任一数据帧;获取所述第二数据帧对应的图像数据的图像特征,以及所述第二数据帧对应的音频数据的音频特征;基于所述第二数据帧对应的图像特征和所述第二数据帧对应的音频特征,确定所述第二数据帧对应的语音检测结果,所述语音检测结果用于指示所述第二数据帧存在语音的概率。 关注微信公众号马克数据网