一种基于语音和图像的说话人数目估计方法和系统

申请号: CN202311278365.6

申请人: 之江实验室

申请日期: 2023/10/7

摘要文本

一种基于语音和图像的说话人数目估计方法和系统，其方法包括：获取图像数据和麦克风阵列数据；检测图像中人脸数量；根据人脸数量生成one‑hot向量；使用麦克风阵列数据计算频域谱；将频域信号输入到噪声估计神经网络中估计噪声嵌入空间中的噪声向量；将噪声向量和频域信号输入到神经网络中估计人声嵌入空间的人声向量；将人脸数量的one‑hot向量和人声向量融合成一个混合向量；将混合向量通过多层全连接层；将全连接层结果输出到说话人数嵌入空间估计说话人数向量；将说话人数向量输入到softmax分类器中，估计出说话人个数。本发明提升了噪声环境下说话人数目估计的准确性和抗干扰能力。

申请人信息

申请人:之江实验室
申请人地址:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室
发明人: 之江实验室

专利详细信息

项目	内容
专利名称	一种基于语音和图像的说话人数目估计方法和系统
专利类型	发明授权
申请号	CN202311278365.6
申请日	2023/10/7
公告号	CN117011924B
公开日	2024/2/13
IPC主分类号	G06V40/16
权利人	之江实验室
发明人	白炳潮; 宛敏红; 宋伟; 朱世强
地址	浙江省杭州市余杭区中泰街道科创大道之江实验室

专利主权项内容

1.一种基于语音和图像的说话人数目估计方法，其特征在于，包括：获取同步图像数据和麦克风阵列数据，对图像数据进行人脸检测；检测图像中人脸数量；根据人脸数量生成one-hot向量；使用麦克风阵列数据计算傅里叶频域数据向量；包括：对每个阵元的时域数据做傅里叶变换，选取指定频域范围的多个阵元的频域数据，将多个阵元的频域数据拼接成一个频域数据向量；将频域信号输入到噪声估计神经网络中估计噪声嵌入空间中的噪声向量；将噪声向量和频域信号输入到神经网络中估计人声嵌入空间的人声向量；将人脸数量的one-hot向量和人声向量融合成一个混合向量；将混合向量通过多层全连接层；将全连接层结果输入到说话人数嵌入空间，估计说话人数向量；最后将说话人数向量输入到softmax分类器中，估计出说话人个数。

一种基于语音和图像的说话人数目估计方法和系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

一种基于语音和图像的说话人数目估计方法和系统

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种耐磨损塑料模具钢及其制备方法

基于数字化控制的纺织印染废水的节能处理工艺

基于数字化控制的涤纶布料的节水印染系统

一种智能球头、应用方法及车辆

一种碳纤维氧化炉送风与回风分配装置

一种建筑整体保温性能检测主体及其检测方法

热门技术领域

快速入口

专利技术资料