← 返回列表

一种基于声学特征的音乐情绪匹配方法

申请号: CN202410131236.2
申请人: 合肥师范学院
申请日期: 2024/1/31

摘要文本

本发明涉及音乐推荐技术领域,公开了一种基于声学特征的音乐情绪匹配方法,包括:对原始音频数据进行预处理后,将得到的预处理后的音频数据划分为若干段;对于每段音频数据,使用梅尔谱来获得频率特征;利用Transformer模型的编码器结构对所述频率特征进行编码,为每段音频数据生成音频特征向量;将多段音频数据对应的音频特征向量组合为音频特征序列通过双向长短期记忆网络模型捕获音频特征序列中的时间依赖关系,并输出每段音频数据对应的情绪类别;实现音乐情绪的综合理解建模,精准匹配音乐所能唤起的情绪类别。

专利详细信息

项目 内容
专利名称 一种基于声学特征的音乐情绪匹配方法
专利类型 发明申请
申请号 CN202410131236.2
申请日 2024/1/31
公告号 CN117668285A
公开日 2024/3/8
IPC主分类号 G06F16/635
权利人 合肥师范学院
发明人 叶蕾; 黄子璇; 李劲松; 康勤; 王子妍
地址 安徽省合肥市金寨路327号

专利主权项内容

1.一种基于声学特征的音乐情绪匹配方法,包括以下步骤:步骤一:对原始音频数据进行预处理后,将得到的预处理后的音频数据划分为N段;对于每段音频数据,使用梅尔谱来获得频率特征,得到频率特征序列;步骤二:通过为所述频率特征添加位置编码获得频域特征,利用Transformer模型的多头自注意力对所述频域特征进行编码,通过捕捉各频域特征之间的关联性,为每段音频数据生成一个向量表征,记为音频特征向量;将N段音频数据对应的音频特征向量组合为音频特征序列,/>表示音频特征序列/>中第t个的音频特征向量;步骤三,通过双向长短期记忆网络模型捕获音频特征序列中的时间依赖关系,并输出每段音频数据对应的情绪类别,具体包括:双向长短期记忆网络模型包括正向层和反向层,正向层从读取到/>,反向层从/>读取到/>;正向层第t个时间步的隐藏状态为:/>;反向层第t个时间步的隐藏状态为:/>;其中,表示双向长短期记忆网络模型的正向层;/>表示双向长短期记忆网络模型的反向层;将每个时间步的正向层隐藏状态和反向层隐藏状态串联起来,得到音频特征序列的综合表示/>:/>;/>表示串联;将传递给全连接层,并使用softmax函数或回归方法,得到每段音频数据的情绪类别。 数据由马 克 团 队整理