← 返回列表

一种基于声纹识别的语音交互方法及系统

申请号: CN202311400275.X
申请人: 杭州捷途慧声科技有限公司
申请日期: 2023/10/26

摘要文本

本发明公开了一种基于声纹识别的语音交互方法,涉及语音交互技术领域,包括如下步骤:S1、通过声音拾取设备采集音频,获得音频数据;S2、将音频数据通过语音识别装置将其转换成文字,并通过端点检测算法进行音频断点检测,获得断点特征点;S3、检测到断点特征点后,将该音频数据发送给声纹引擎进行声纹识别,从而更新角色信息;其中,所述音频数据在通过步骤S2之前还包括设置有音频分类处理,其处理内容如下:将S1获取的音频数据划分成环境音频、文字音频以及干扰音频,然后将文字音频发送至步骤S2;本发明还公开了一种语音交互系统,具体来说,本发明能够准确区分说话人的角色,同时将多个人讲话的内容准确的转成文字,提高笔录制作效率。

专利详细信息

项目 内容
专利名称 一种基于声纹识别的语音交互方法及系统
专利类型 发明申请
申请号 CN202311400275.X
申请日 2023/10/26
公告号 CN117456984A
公开日 2024/1/26
IPC主分类号 G10L15/04
权利人 杭州捷途慧声科技有限公司
发明人 叶增荣; 陈文鹏; 岑小坤
地址 浙江省杭州市余杭区仓前街道文一西路1326号1号楼1102室

专利主权项内容

1.一种基于声纹识别的语音交互方法,其特征在于,包括如下步骤:S1、通过声音拾取设备采集音频,获得音频数据;S2、将音频数据通过语音识别装置将其转换成文字,并通过端点检测算法进行音频断点检测,获得断点特征点;S3、检测到断点特征点后,将该音频数据发送给声纹引擎进行声纹识别,从而更新角色信息;其中,所述音频数据在通过步骤S2之前还包括设置有音频分类处理,其处理内容如下:将S1获取的音频数据划分成环境音频、文字音频以及干扰音频,然后将文字音频发送至步骤S2。 微信公众号马克数据网