一种音视频的生成方法、装置、设备及存储介质
申请人信息
- 申请人:翌东寰球(深圳)数字科技有限公司
- 申请人地址:518061 广东省深圳市南山区粤海街道高新区社区粤兴一道8号香港城市大学产学研大楼203C
- 发明人: 翌东寰球(深圳)数字科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种音视频的生成方法、装置、设备及存储介质 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311641383.6 |
| 申请日 | 2023/12/4 |
| 公告号 | CN117373455B |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G10L15/22 |
| 权利人 | 翌东寰球(深圳)数字科技有限公司 |
| 发明人 | 廖少毅; 王光旭; 张梓琦; 董伟; 秦睿 |
| 地址 | 广东省深圳市南山区粤海街道高新区社区粤兴一道8号香港城市大学产学研大楼203C |
摘要文本
翌东寰球(深圳)数字科技有限公司取得“一种透气窗帘布”专利技术,本申请实施例公开了一种音视频的生成方法、装置、设备及存储介质。该生成方法包括:基于初始二维人脸图像,生成与初始二维人脸图像对应的匹配三维人脸模型。对音频数据进行特征提取,得到语音特征,根据语音特征和匹配三维人脸模型,预测和音频数据对齐的目标三维人脸动作序列,根据目标三维人脸模型中的第二人脸关键点,匹配三维人脸模型中的第二人脸关键点,以及第一人脸关键点和匹配三维人脸模型中的第二人脸关键点的对应关系,对第一人脸关键点调整,得到匹配的目标二维人脸图像,将目标二维人脸图像拼接,得到视频,将视频与音频合成,得到目标音视频。实现了对二维人脸图像的面部五官进行整体驱动,使人脸表情变化自然流畅,更加拟人化。
专利主权项内容
1.一种音视频的生成方法,其特征在于,包括:获取预先构建的初始二维人脸图像,以及所述初始二维人脸图像对应的匹配三维人脸模型;其中,所述初始二维人脸图像包括至少一个第一人脸关键点,所述匹配三维人脸模型包括至少一个第二人脸关键点,任一第一人脸关键点对应所述至少一个第二人脸关键点中的一个或者多个第二人脸关键点;对音频数据进行特征提取,得到所述音频数据的语音特征,并根据所述语音特征和所述匹配三维人脸模型,预测和所述音频数据对齐的目标三维人脸动作序列,得到所述音频数据对应的多个目标三维人脸模型;针对任一目标三维人脸模型,根据所述任一目标三维人脸模型中的各个第二人脸关键点的参数信息,所述匹配三维人脸模型中的各个第二人脸关键点的参数信息,以及所述至少一个第一人脸关键点和所述匹配三维人脸模型中的至少一个第二人脸关键点的对应关系,对所述至少一个第一人脸关键点的参数信息进行调整,得到与所述任一目标三维人脸模型匹配的目标二维人脸图像;将与所述多个目标三维人脸模型匹配的多个目标二维人脸图像进行拼接,得到与所述音频数据对齐的视频数据;将所述视频数据与所述音频数据合成,得到目标音视频;其中,所述多个目标三维人脸模型是通过训练后的人脸驱动预测模型得到的,其中所述训练后的人脸驱动预测模型的训练方式包括:获取训练音视频,所述训练音视频包括训练视频和训练音频数据,所述训练视频包括多帧训练二维人脸图像;获取各帧训练二维人脸图像对应的训练三维人脸模型中的各个第二人脸关键点的参数信息;对所述训练音频数据进行特征提取,得到所述训练音频数据的语音特征;基于偏向跨模态多头注意力机制,将所述训练视频和训练音频数据对齐;获取所述训练音频数据的各个语音特征和与所述各个语音特征对齐的训练三维人脸模型中的各个第二人脸关键点的参数信息的对齐偏差;按照减小所述对齐偏差的方向,对所述人脸驱动预测模型进行训练。