基于迁移学习的音频和文本的宽时间范畴情感识别方法
摘要文本
北京理工大学珠海学院取得“一种透气窗帘布”专利技术,本发明公开涉及基于迁移学习的音频和文本的宽时间范畴情感识别方法,通过使用预训练模型VGGish和BERTbase提取音频和文本两个模态的情感特征,从不同的角度对目标人物的情感进行分析;通过事实描述和文本描述进行情感特征的提取,在宽时间范畴内对目标人物目前的情感状态进行更准确的推理,通过在SVCEmotion数据集的音频和文本描述数据上的实验证明,VGGish和BERTbase预训练模型均能在本文使用的数据集上实现良好的效果,模型在预训练过程中学习到的参数能够有效的提升其在目标任务上的表现;对比实验证明,SVCEmotion数据集中针对宽时间范畴下的情感识别任务引入的情境描述可以为情感识别提供线索,且与事实描述结合能大幅提升情感识别效果。
专利主权项内容
1.基于迁移学习的音频和文本的宽时间范畴情感识别方法,所述方法包括以下步骤:输入信号处理;调用FFmpeg工具将视频中的音频提取出来,然后将其重采样为16kHz的单声道音频;使用窗长为25ms的Hann窗截取音频片段,以10ms的帧移对音频片段实现短时傅里叶变换得到频谱图,使用梅尔尺度滤波器组,计算log(mel-spectrum+0.01),将频谱转化为梅尔声谱,每帧时长为10ms,包含64个梅尔频带,将每帧的梅尔声谱进行无重叠的组合,每0.96s的时长为一组,得到每组输入尺寸为96×64的梅尔声谱图;建立VGGish预训练模型;所述VGGish预训练模型音频通过大规模音频事件数据集AudioSet数据集上进行预训练,所述AudioSet数据集由200多万个时长为10秒的YouTube音频片段组成,所述AudioSet数据集标注了623种音频事件类的本体;将经过转换的梅尔声谱图作为VGGish预训练模型的输入,每组输入经过特征提取得到128维的特征表示,在训练过程中,每次随机选取音频样本的维一组特征表示送入两层全连接层,得到28维的分类表示H;v在验证过程中,取每个样本的全部特征表示的均值作为视频级别的特征表示,并送入分类器得到识别结果。 微信公众号马克数据网
专利申请信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于迁移学习的音频和文本的宽时间范畴情感识别方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311573437.X |
| 申请日 | 2023/11/23 |
| 公告号 | CN117633587A |
| 公开日 | 2024/3/1 |
| IPC主分类号 | G06F18/24 |
| 权利人 | 北京理工大学珠海学院 |
| 发明人 | 卢桂萍; 王科俊; 张小凤; 杨涛; 曹宇 |
| 地址 | 广东省珠海市唐家湾金凤路6号 |