← 返回列表

音频信号内容分析方法、装置、设备及存储介质

申请号: CN202311435217.0
申请人: 北京邮电大学
申请日期: 2023/10/31

摘要文本

本申请提出一种音频信号内容分析方法、设备及存储介质,该方法包括:获取待处理的目标音频信号的目标音频特征;基于目标嵌入特征和目标音频特征,确定当前时间步的特征概率分布,目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者目标音频信号的预设词嵌入特征;基于特征概率分布从特征概率分布的多个潜在特征中选取当前时间步的目标潜在特征;基于多个时间步的目标词潜在特征和目标音频特征,生成目标音频信号对应的目标描述信息。本申请实施例实现了可以基于音频信号生成不同的描述信息。

专利详细信息

项目 内容
专利名称 音频信号内容分析方法、装置、设备及存储介质
专利类型 发明申请
申请号 CN202311435217.0
申请日 2023/10/31
公告号 CN117594060A
公开日 2024/2/23
IPC主分类号 G10L25/27
权利人 北京邮电大学
发明人 马占宇; 张益铭; 杜若一; 梁孔明
地址 北京市海淀区西土城路10号

专利主权项内容

1.一种音频信号内容分析方法,其特征在于,包括:获取待处理的目标音频信号的目标音频特征;基于目标嵌入特征和所述目标音频特征,确定当前时间步的特征概率分布,所述目标嵌入特征为前一时间步的描述词的原始词嵌入特征或者所述目标音频信号的预设词嵌入特征;基于所述特征概率分布从所述特征概率分布中通过重采样操作选取所述当前时间步的目标潜在特征;基于多个时间步的目标潜在特征和所述目标音频特征,生成所述目标音频信号对应的目标描述信息。