← 返回列表
基于帧级别情感状态对齐的语音情感识别方法和系统
摘要文本
本发明提供一种基于帧级别情感状态对齐的语音情感识别方法和系统,所述方法包括:利用预训练的语音情感识别模型对输入的语音数据进行语音情感识别,得到句子级别语音情感识别结果。其中,在所述语音情感识别模型的预训练过程中,对于训练集包含的语音数据提取帧级别深层情感表征,利用预训练的聚类模型基于帧级别深层情感表征推理得到帧级别情感伪标签,使用包含语音数据和其帧级别情感伪标签的训练集训练得到帧级别情感状态对齐模型,通过对所述帧级别情感状态对齐模型结合情感标签进行迁移学习训练得到所述语音情感识别模型。本发明能够解决语音样本中不一致帧的干扰,并避免成本昂贵的问题。
申请人信息
- 申请人:北京邮电大学
- 申请人地址:100876 北京市海淀区西土城路10号
- 发明人: 北京邮电大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于帧级别情感状态对齐的语音情感识别方法和系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311430903.9 |
| 申请日 | 2023/10/31 |
| 公告号 | CN117649861A |
| 公开日 | 2024/3/5 |
| IPC主分类号 | G10L25/63 |
| 权利人 | 北京邮电大学 |
| 发明人 | 李雅; 李启飞; 高迎明; 王聪 |
| 地址 | 北京市海淀区西土城路10号 |
专利主权项内容
1.一种基于帧级别情感状态对齐的语音情感识别方法,其特征在于,该方法包括以下步骤:利用预训练的语音情感识别模型对输入的语音数据进行语音情感识别,得到句子级别语音情感识别结果;其中,在所述语音情感识别模型的预训练过程中,对于训练集包含的语音数据提取帧级别深层情感表征,利用预训练的聚类模型基于帧级别深层情感表征推理得到帧级别情感伪标签,使用包含语音数据和其帧级别情感伪标签的训练集训练得到帧级别情感状态对齐模型,通过对所述帧级别情感状态对齐模型结合情感标签进行迁移学习训练得到所述语音情感识别模型。