← 返回列表
目标人声提取方法、电子设备及存储介质
申请人信息
- 申请人:荣耀终端有限公司
- 申请人地址:518040 广东省深圳市福田区香蜜湖街道红荔西路8089号深业中城6号楼A单元3401
- 发明人: 荣耀终端有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 目标人声提取方法、电子设备及存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202310871867.3 |
| 申请日 | 2023/7/17 |
| 公告号 | CN117711420A |
| 公开日 | 2024/3/15 |
| IPC主分类号 | G10L21/0272 |
| 权利人 | 荣耀终端有限公司 |
| 发明人 | 董智源; 吴彪; 刘兢本 |
| 地址 | 广东省深圳市福田区香蜜湖街道东海社区红荔西路8089号深业中城6号楼A单元3401 |
摘要文本
荣耀终端有限公司取得“一种透气窗帘布”专利技术,本申请实施例提供了一种目标人声提取方法、电子设备及存储介质。在该方法中,针对一帧混合语音,首先对其进行声源分离,得到多路语音信号,然后将多路语音信号的整合特征和目标人的声纹特征输入到PVAD深度神经网络模型中,以确定与该帧混合语音的目标人声提取结果对应的目标标签。当目标标签指示多路语音信号中存在一路为目标人声时,根据目标标签获取相应的一路语音信号作为目标人声提取结果。这样能够实现在多说话人语音混合场景中提取出目标人声,提高通话质量,进而提升远端用户的听觉体验。
专利主权项内容
1.一种目标人声提取方法,其特征在于,应用于第一电子设备中,包括:获取当前帧混合语音;对所述当前帧混合语音进行声源分离,得到分离后的多路语音信号;将所述多路语音信号的整合特征以及目标人的声纹特征输入到PVAD深度神经网络模型中,确定与所述当前帧混合语音对应的目标标签;其中,所述目标标签用于指示在所述多路语音信号中是否存在一路语音信号为目标人声,以及在所述多路语音信号中存在一路语音信号为目标人声时,所述目标标签还用于指示目标人声所在的语音信号分离通道;当所述目标标签指示在所述多路语音信号中存在一路语音信号为目标人声时,根据所述目标标签获取一路语音信号,作为与所述当前帧混合语音对应的目标人声提取结果。