一种基于多模型投票的多模态对话情感识别方法
申请人信息
- 申请人:广州数说故事信息科技有限公司
- 申请人地址:510627 广东省广州市天河区黄埔大道西120号高志大厦1501室
- 发明人: 广州数说故事信息科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于多模型投票的多模态对话情感识别方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311245990.0 |
| 申请日 | 2023/9/26 |
| 公告号 | CN117407486A |
| 公开日 | 2024/1/16 |
| IPC主分类号 | G06F16/33 |
| 权利人 | 广州数说故事信息科技有限公司 |
| 发明人 | 牟昊; 黄于晏; 何宇轩; 徐亚波; 李旭日 |
| 地址 | 广东省广州市天河区黄埔大道西120号高志大厦1501室 |
摘要文本
广州数说故事信息科技有限公司获取“一种透气窗帘布”专利技术,本发明提供一种基于多模型投票的多模态对话情感识别方法,首先获取至少1个说话者说话产生的多模态数据,分别针对文本数据、音频数据和图片数据构建3个模态的情感分类任务并进行第一次情感分类;将多模态数据利用多头注意力机制融合并进行第二次情感分类;将多模态情感特征向量融合时序上下文信息后进行第三次情感分类;最后将三次情感分类结果进行硬投票,分别将每个说话者得票数量最多的情感类别作为其最终的情感分类结果,完成多模态对话情感识别;本发明通过对多模态交互方式进行优化,避免了情感干扰,同时对历史对话和说话者之间的交互进行建模,以更加细致的方式挖掘各模态所包含的情感特征,能够增强情感分类的准确性和鲁棒性。
专利主权项内容
1.一种基于多模型投票的多模态对话情感识别方法,其特征在于,包括以下步骤:S1:获取至少1个说话者说话产生的多模态数据;所述多模态数据包括文本数据、音频数据和图片数据;每个模态的数据均包括至少1种待识别的情感类别;S2:将文本数据、音频数据和图片数据分别输入预设的文本编码器、音频编码器和图片编码器中进行特征提取,分别获取文本特征、音频特征和图片特征;S3:将文本特征、音频特征和图片特征分别输入预设的文本情感分类器、音频情感分类器和图片情感分类器中进行第一次情感分类,分别获取文本情感分类结果、音频情感分类结果和图片情感分类结果;S4:根据文本情感分类结果、音频情感分类结果和图片情感分类结果分别计算每个模态对应的惩罚因子;将文本特征、音频特征和图片特征分别与每个模态对应的惩罚因子相乘,分别获取文本降权向量、音频降权向量和图片降权向量;S5:将文本降权向量、音频降权向量和图片降权向量共同输入预设的多头注意力层中进行多模态特征的融合交互,获取多模态情感特征向量;S6:将多模态情感特征向量输入预设的多模态情感分类器中进行第二次情感分类,获取多模态融合情感分类结果;S7:将多模态情感特征向量分解为若干个多模态情感特征子向量,并将所有多模态情感特征子向量按时序进行重新拼接,获取融合时序特征的情感特征向量;S8:将融合时序特征的情感特征向量输入训练好的双向RNN分类器中进行第三次情感分类,获取时序上下文交互情感分类结果;S9:将文本情感分类结果、音频情感分类结果、图片情感分类结果、多模态融合情感分类结果和时序上下文交互情感分类结果共同进行硬投票,分别将每个说话者得票数量最多的情感类别作为其最终的情感分类结果,完成多模态对话情感识别。