← 返回列表
一种基于动作驱动和口型驱动的照片驱动方法
摘要文本
本发明公开了一种基于动作驱动和口型驱动的照片驱动方法,根据用户输入的音频或文本信息,驱动模型内置人物的口型,得到目标人物的说话的动作;根据音频驱动得到的动作,驱动用户上传的照片,实现照片驱动;最后为了实现实时驱动速度,将全部网络在TensorRT框架下进行推理。优点是:既能够实现动作效果,又无需进行训练,且能够实现实时照片驱动。通过结合语音驱动和动作驱动相结合的方式,达到提高照片驱动的效率和用户体验,从而满足用户对于高效、便捷和快速响应的需求。
申请人信息
- 申请人:北京中科金财科技股份有限公司
- 申请人地址:100085 北京市海淀区学清路9号汇智大厦11层2单元1201B室
- 发明人: 北京中科金财科技股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于动作驱动和口型驱动的照片驱动方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311730634.8 |
| 申请日 | 2023/12/15 |
| 公告号 | CN117729298A |
| 公开日 | 2024/3/19 |
| IPC主分类号 | H04N5/265 |
| 权利人 | 北京中科金财科技股份有限公司 |
| 发明人 | 高春阳; 胡浩俊; 杨宏阳; 刘龙飞 |
| 地址 | 北京市海淀区学清路9号汇智大厦11层2单元1201B室 |
专利主权项内容
1.一种基于动作驱动和口型驱动的照片驱动方法,其特征在于:包括如下步骤,S1、语音驱动口型:将用户输入的音频或根据用户输入的文本信息转换成的音频,输入到预训练好的Bert结构的模型中,预测三维人脸关键点;根据用户输入的是照片或视频,利用相应的姿态信息对获取的三维人脸关键点进行仿射变换,获取相应姿态下的三维人脸关键点;将相应姿态下的三维人脸关键点输入到预训练好的姿态后处理网络中,推理得到校验后的三维人脸关键点;利用校验后的三维人脸关键点为每一帧图像构建条件特征图,并基于条件特征图以及目标人物的候选图像集,获取目标人物的说话动作;S2、动作驱动照片:基于目标人物的说话动作和用户上传的图片或视频,利用改进的TPS Motion算法实现动作驱动照片;S3、模型加速:将全部的网络模型在TensorRT框架下进行模型推理,实现实时照片驱动。 搜索马 克 数 据 网