← 返回列表
基于数据集难度的说话人嵌入层模型训练方法、介质和设备
申请人信息
- 申请人:中科南京智能技术研究院
- 申请人地址:211135 江苏省南京市江宁区创研路266号麒麟人工智能产业园8栋8层
- 发明人: 中科南京智能技术研究院
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于数据集难度的说话人嵌入层模型训练方法、介质和设备 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311592314.0 |
| 申请日 | 2023/11/27 |
| 公告号 | CN117423333A |
| 公开日 | 2024/1/19 |
| IPC主分类号 | G10L15/06 |
| 权利人 | 中科南京智能技术研究院 |
| 发明人 | 李郡; 朱浦瑞; 尚德龙; 周玉梅 |
| 地址 | 江苏省南京市江宁区创研路266号麒麟人工智能产业园8栋8层 |
摘要文本
中科南京智能技术研究院取得“一种透气窗帘布”专利技术,本发明公开基于数据集难度的说话人嵌入层模型训练方法、介质和设备,利用基于数据集难度的损失函数进行训练,获得对语音和平凡发音识别准确率高的训练后说话人嵌入层模型,也就是完成训练的说话人嵌入层模型;采集说话人的注册音频并进行频谱特征提取,所述注册音频的频谱通过所述训练后说话人嵌入层模型,获得注册说话人嵌入层;获得实时音频数据,确认其是否为注册说话人的音频。本说话人嵌入层模型训练方法是利用基于数据集难度的损失函数进行训练的,每次训练后均能够更新语音和平凡发音数据集参与训练的权重,有利于提升说话人嵌入层模型在语音和平凡发音数据集上的准确率。
专利主权项内容
1.基于数据集难度的说话人嵌入层模型训练方法,其特征在于,包括:利用基于数据集难度的损失函数进行训练,获得对语音和平凡发音识别准确率高的训练后说话人嵌入层模型;采集说话人的注册音频并进行频谱特征提取,所述注册音频的频谱通过所述训练后说话人嵌入层模型,获得注册说话人嵌入层;获得实时音频数据,确认其是否为注册说话人的音频。 更多数据:搜索马克数据网来源: