一种多模态情感识别方法及装置
摘要文本
本发明涉及情感识别技术领域,尤其是指一种多模态情感识别方法及装置,包括:对长序列的音视频信息预分段处理后,分别输入音视频特征编码提取音视频段级特征序列;将音视频段级特征序列连接后通过全连接层进行映射,得到段级情感相似性特征序列;将各段级情感相似性特征序列查询元素,音视频各段级特征序列作为键元素和值元素,通过多头注意力机制输出音视频段级情感加权特征序列;利用中心映射函数分别计算音视频加权中心向量和情感相似性信息的中心向量,合并后构建多模态联合情感特征;对多模态联合情感特征进行情感识别。本发明充分利用了输入数据的上下文信息,增强了多模态情感识别模型的实时识别性能,提高了情感识别的稳定性。
申请人信息
- 申请人:苏州大学
- 申请人地址:215299 江苏省苏州市吴江区久泳西路1号
- 发明人: 苏州大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种多模态情感识别方法及装置 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311795668.5 |
| 申请日 | 2023/12/25 |
| 公告号 | CN117763446A |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06F18/2415 |
| 权利人 | 苏州大学 |
| 发明人 | 陈雪勤; 石昌文 |
| 地址 | 江苏省苏州市吴江区久泳西路1号 |
专利主权项内容
(更多数据,详见马克数据网) 。1.一种多模态情感识别方法,其特征在于,包括:将长序列的音视频信息输入预先完成训练的多模态情感识别模型,其中,所述多模态情感识别模型包括音频特征编码器、视频特征编码器、视听编码器和多头情感注意力机制;对长序列的音视频信息进行预分段处理,将分段后的音视频信息分别输入音频特征编码器和视频特征编码器,提取其音频段级特征序列和视频段级特征序列;将所述音频段级特征序列和视频段级特征序列输入视听编码器,将所述音频段级特征序列和视频段级特征序列中的表征向量按顺序连接后得到段级音视频融合特征序列;将所述段级音视频融合特征序列中每个融合表征向量通过全连接层进行映射,得到段级情感相似性特征序列;将所述音频段级特征序列、视频段级特征序列和段级情感相似性特征序列输入多头情感注意力机制;将各段级情感相似性特征序列作为交叉注意力机制中查询元素,音频各段级特征序列作为键元素和值元素,通过多头注意力机制计算每个音频段级特征序列的情感注意力权重,输出音频段级情感加权特征序列;将各段级情感相似性特征序列作为查询元素,视频各段级特征序列作为键元素和值元素,通过多头注意力机制计算每个视频段级特征序列的情感注意力权重,输出视频段级情感加权特征序列;利用中心映射函数分别对所有音频段级情感加权特征序列和所有视频段级情感加权特征序列进行平均处理,得到长序列的音频加权中心向量和视频加权中心向量;将段级情感相似性特征序列进行平均处理,得到情感相似性信息的中心向量;将所述音频加权中心向量、视频加权中心向量和情感相似性信息的中心向量合并,构建多模态联合情感特征;将所述多模态联合情感特征输入全连接层进行情感预测,通过Softmax激活函数将其转换为对应的情感概率分布,将概率最大的情感作为目标情感。