← 返回列表

一种基于扩散模型数据增强的情感识别方法和系统

申请号: CN202311785908.3
申请人: 清华大学
申请日期: 2023/12/25

摘要文本

本发明提出一种基于扩散模型数据增强的情感识别方法和系统。其中,方法包括:从视频中提取音频数据的语谱图,将语谱图输入基于深度学习的音频情感特征生成模型,生成音频情感特征;再将视频帧输入基于深度学习的视频情感特征生成模型,提取图像特征;然后对图像特征进行归一化,得到视频情感特征;应用音频情感特征和视频情感特征作为输入,训练基于深度学习的扩散模型;应用训练好的扩散模型进行数据增强,生成扩展数据集;应用扩展数据集训练基于深度学习的情感识别模型;将训练好的情感识别模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。本发明提出的方案能够提升模型的泛化性能,从而提高实际情感识别的效果。

专利详细信息

项目 内容
专利名称 一种基于扩散模型数据增强的情感识别方法和系统
专利类型 发明授权
申请号 CN202311785908.3
申请日 2023/12/25
公告号 CN117473397B
公开日 2024/3/19
IPC主分类号 G06F18/241
权利人 清华大学
发明人 陶建华; 解衡; 范存航; 吕钊
地址 北京市海淀区清华园

专利主权项内容

1.一种基于扩散模型数据增强的情感识别方法,其特征在于,所述方法包括:步骤S1、从视频中提取音频数据的语谱图,将所述语谱图输入基于深度学习的音频情感特征生成模型,生成音频情感特征;步骤S2、从所述视频中提取视频帧,再将所述视频帧输入基于深度学习的视频情感特征生成模型,提取图像特征;然后对所述图像特征进行归一化,得到视频情感特征;步骤S3、应用所述音频情感特征和视频情感特征作为输入,训练基于深度学习的扩散模型,在扩散模型训练过程中,使用情感标签作为监督信号,引导扩散模型学习音视频特征与情感之间的关系;步骤S4、应用训练好的扩散模型进行数据增强,生成扩展数据集,包括:应用训练好的扩散模型输出生成音视频特征数据,通过在扩散模型生成过程中引入随机噪声,并通过逐步扩散过程将噪声逐渐转化为具有目标情感的音视频特征数据,得到增强数据;再将所述增强数据与真实特征数据合并,得到扩展数据集;步骤S5、应用所述扩展数据集训练基于深度学习的情感识别模型;将训练好的情感识别模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。