← 返回列表
一种基于语音和图像的说话人数目估计方法和系统
摘要文本
一种基于语音和图像的说话人数目估计方法和系统,其方法包括:获取图像数据和麦克风阵列数据;检测图像中人脸数量;根据人脸数量生成one‑hot向量;使用麦克风阵列数据计算频域谱;将频域信号输入到噪声估计神经网络中估计噪声嵌入空间中的噪声向量;将噪声向量和频域信号输入到神经网络中估计人声嵌入空间的人声向量;将人脸数量的one‑hot向量和人声向量融合成一个混合向量;将混合向量通过多层全连接层;将全连接层结果输出到说话人数嵌入空间估计说话人数向量;将说话人数向量输入到softmax分类器中,估计出说话人个数。本发明提升了噪声环境下说话人数目估计的准确性和抗干扰能力。
申请人信息
- 申请人:之江实验室
- 申请人地址:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 发明人: 之江实验室
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于语音和图像的说话人数目估计方法和系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311278365.6 |
| 申请日 | 2023/10/7 |
| 公告号 | CN117011924B |
| 公开日 | 2024/2/13 |
| IPC主分类号 | G06V40/16 |
| 权利人 | 之江实验室 |
| 发明人 | 白炳潮; 宛敏红; 宋伟; 朱世强 |
| 地址 | 浙江省杭州市余杭区中泰街道科创大道之江实验室 |
专利主权项内容
1.一种基于语音和图像的说话人数目估计方法,其特征在于,包括:获取同步图像数据和麦克风阵列数据,对图像数据进行人脸检测;检测图像中人脸数量;根据人脸数量生成one-hot向量;使用麦克风阵列数据计算傅里叶频域数据向量;包括:对每个阵元的时域数据做傅里叶变换,选取指定频域范围的多个阵元的频域数据,将多个阵元的频域数据拼接成一个频域数据向量;将频域信号输入到噪声估计神经网络中估计噪声嵌入空间中的噪声向量;将噪声向量和频域信号输入到神经网络中估计人声嵌入空间的人声向量;将人脸数量的one-hot向量和人声向量融合成一个混合向量;将混合向量通过多层全连接层;将全连接层结果输入到说话人数嵌入空间,估计说话人数向量;最后将说话人数向量输入到softmax分类器中,估计出说话人个数。