← 返回列表
基于图像和语音多模态融合的伪造视频检测方法及装置
摘要文本
本发明提供一种基于图像和语音多模态融合的伪造视频检测方法及装置,该方法涉及视频检测技术领域,包括:将待检测视频进行预处理,得到多个视频片段;待检测视频包括音频,每个视频片段包括音频;针对每个视频片段,分别提取视频片段的视频特征向量和视频片段中的音频的音频特征向量;基于各视频特征向量和各音频特征向量,确定待检测视频对应的总视频特征向量和总音频特征向量;基于各视频特征向量、各音频特征向量、总视频特征向量和总音频特征向量,确定待检测视频的目标检测结果;目标检测结果表示待检测视频为伪造视频或者真实视频,提升了待检测视频的目标检测结果的准确性,进而提升了对待检测视频中深度伪造内容的检测精度。 来自:
申请人信息
- 申请人:国家计算机网络与信息安全管理中心
- 申请人地址:100029 北京市朝阳区裕民路甲3号
- 发明人: 国家计算机网络与信息安全管理中心
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于图像和语音多模态融合的伪造视频检测方法及装置 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311337406.4 |
| 申请日 | 2023/10/16 |
| 公告号 | CN117496394A |
| 公开日 | 2024/2/2 |
| IPC主分类号 | G06V20/40 |
| 权利人 | 国家计算机网络与信息安全管理中心 |
| 发明人 | 孙旭东; 张震; 石瑾; 刘铭; 郭承禹; 刘晰尧; 仇艺 |
| 地址 | 北京市朝阳区裕民路甲3号 |
专利主权项内容
1.一种基于图像和语音多模态融合的伪造视频检测方法,其特征在于,包括:将待检测视频进行预处理,得到多个视频片段;所述待检测视频包括音频,每个所述视频片段包括所述音频;针对每个所述视频片段,分别提取所述视频片段的视频特征向量和所述视频片段中的所述音频的音频特征向量;基于各所述视频特征向量和各所述音频特征向量,确定所述待检测视频对应的总视频特征向量和总音频特征向量;基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量,确定所述待检测视频的目标检测结果;所述目标检测结果表示所述待检测视频为伪造视频或者真实视频。。