基于语音的人脸驱动方法、装置、电子设备及存储介质
摘要文本
四川封面传媒科技有限责任公司取得“一种透气窗帘布”专利技术,本发明公开了一种基于语音的人脸驱动方法、装置、电子设备及存储介质,本发明在模型训练所使用的真实人脸混合形状参数的获取过程中,结合了多种目标损失函数,如此,保证了人脸混合形状参数的时序平滑性与准确性,解决了因人脸混合形状参数非正交基引起的优化困难问题;同时,在语音到人脸混合形状参数预测的网络结构中加入了时序模块和映射模块,基于此,能够保证人脸驱动的实时性与准确性;因此,本发明可基于语音来精准且实时的驱动人脸,非常适用于在语音驱动人脸领域的大规模应用与推广。。
专利主权项内容
1.一种基于语音的人脸驱动方法,其特征在于,包括:获取目标语音信号,并将所述目标语音信号输入至人脸混合形状参数预测模型中,以得到所述目标语音信号对应的人脸混合形状参数;基于所述人脸混合形状参数,生成3D人脸模型;其中,人脸混合形状参数预测模型是以多个样本语音信号以及各个样本语音信号的真实人脸混合形状参数为输入,各个样本语音信号的预测人脸混合形状参数为输出而训练得到的;任一样本语音信号的真实人脸混合形状参数是通过对该任一样本语音信号对应视频中的人脸图像进行人脸关键点识别,并对识别出的人脸关键点进行迭代优化处理而得到的,其中,识别出的人脸关键点进行迭代优化的目标为最小化迭代后的人脸关键点的熵值,最小化化迭代后的人脸关键点的均方误差,最小化迭代后的人脸关键点的三角面片的法向量夹角,以及最小化迭代后的人脸关键点与目标人脸关键点的变化的均方根值,且所述目标人脸关键点为所述任一样本语音信号对应视频中的其余人脸图像中迭代优化后的人脸关键点;所述人脸混合形状参数预测模型包括语音特征提取模块、LSTM时序模块以及MLP模块,其中,所述语音特征提取模块用于对输入的所述目标语音信号进行特征提取处理,得到语音特征,并将所述语音特征传输至所述LSTM时序模块;所述LSTM时序模块,用于对所述语音特征进行时序融合,得到时序语音特征;所述MLP模块,用于对所述时序语音特征进行人脸混合形状参数映射处理,以输出所述目标语音信号对应的人脸混合形状参数。
专利申请信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于语音的人脸驱动方法、装置、电子设备及存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311774548.7 |
| 申请日 | 2023/12/22 |
| 公告号 | CN117456063A |
| 公开日 | 2024/1/26 |
| IPC主分类号 | G06T13/20 |
| 权利人 | 四川封面传媒科技有限责任公司 |
| 发明人 | 吴方印; 高登科; 王子健; 雷小炫; 陈涵宇 |
| 地址 | 四川省成都市锦江区红星路二段70号1幢传媒大厦8楼 |