← 返回列表
动作图像与视频生成方法、设备与存储介质
申请人信息
- 申请人:淘宝(中国)软件有限公司
- 申请人地址:311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层554室
- 发明人: 淘宝(中国)软件有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 动作图像与视频生成方法、设备与存储介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410072102.8 |
| 申请日 | 2024/1/17 |
| 公告号 | CN117593473A |
| 公开日 | 2024/2/23 |
| IPC主分类号 | G06T17/00 |
| 权利人 | 淘宝(中国)软件有限公司 |
| 发明人 | 孙泽锋; 楚东方; 陈志文; 吕承飞 |
| 地址 | 浙江省杭州市余杭区五常街道文一西路969号3幢5层554室 |
摘要文本
本申请实施例提供一种动作图像与视频生成方法、设备与存储介质。其中,提供一种2D虚拟数字人的动作图像生成方式或视频生成方式,对2D图像中用户的嘴部区域修复,实现准确匹配说话声音和嘴型的能力,能够更加简单地实现2D虚拟数字人自由说话功能,且最大限度地保留了真人特征,让2D虚拟数字人在视觉效果上和真人无异,让2D虚拟数字人更加真实,使得和真人几乎一模一样的2D虚拟数字人成为可能。该2D虚拟数字人能够代替真人进行长时间不间断的直播和短视频出境拍摄任务,大大降低直播和短视频拍摄制作的成本。
专利主权项内容
1.一种动作图像生成方法,其特征在于,包括:确定待修复图像、参考图像和音频信号,所述待修复图像和所述参考图像包含同一目标用户,且所述待修复图像中的嘴部区域为待修复区域;对所述待修复图像、参考图像和音频信号分别进行特征提取,以得到所述待修复图像、参考图像和音频信号各自的初始特征,所述待修复图像、参考图像和音频信号的初始特征分别反映待修复的嘴部区域的图像位置、样式和动作形态;对所述待修复图像、参考图像和音频信号的初始特征进行融合处理,以得到目标融合特征;根据所述目标融合特征对所述待修复图像中的嘴部区域进行修复,以得到嘴部动作与所述音频信号匹配的动作图像。。关注微信公众号