← 返回列表

一种基于神经网络和特征融合的合成语音检测方法

申请号: CN202311490667.X
申请人: 南京邮电大学
更新日期: 2026-03-10

专利详细信息

项目 内容
专利名称 一种基于神经网络和特征融合的合成语音检测方法
专利类型 发明申请
申请号 CN202311490667.X
申请日 2023/11/9
公告号 CN117393000A
公开日 2024/1/12
IPC主分类号 G10L25/30
权利人 南京邮电大学
发明人 徐小龙; 刘畅
地址 江苏省南京市栖霞区亚东新城文苑路9号

摘要文本

本发明公开了一种基于神经网络和特征融合的合成语音检测方法,所述方法包括:获取音频待测数据集,对音频待测数据集提取音频的声学特征和对应的频谱图图像特征;将音频的声学特征和对应的频谱图图像特征输入预先训练的合成音频检测模型中,分别得到音频的真实性分数一和音频的真实性分数二;将音频的真实性分数一和音频的真实性分数二加权融合,得到特征信息融合后的音频真实性得分;将得到的特征信息融合后的真实性得分与预先设定的阈值比较得到最终音频检测结果;本发明巧妙融合了声学特征和频谱图图像信息进行合成语音检测,具有更好的稳定性和泛化能力。。来自马-克-数-据

专利主权项内容

(更多数据,详见马克数据网) 。1.一种基于神经网络和特征融合的合成语音检测方法,其特征在于,所述方法包括:获取音频待测数据集,对音频待测数据集提取音频的声学特征和对应的频谱图图像特征;将音频的声学特征和对应的频谱图图像特征输入预先训练的合成音频检测模型中,分别得到音频的真实性分数一和音频的真实性分数二;将音频的真实性分数一和音频的真实性分数二加权融合,得到特征信息融合后的音频真实性得分;将得到的真实性得分与预先设定的阈值比较,得到最终音频检测结果;其中,所述合成音频检测模型包括特征到分数模块和图像到分数模块,所述特征到分数模块用于将输入的音频的声学特征输出为音频的真实性分数一,所述图像到分数模块用于将输入的对应的频谱图图像特征输出为音频的真实性分数二。