一种高帧率回放式快速虚拟制片系统
摘要文本
数据由马 克 团 队整理 本发明公开了一种高帧率回放式快速虚拟制片系统,涉及虚拟制片领域。其首先获取由摄像头捕捉的用户动作视频和由录音设备捕捉的用户录制语音,提取所述用户录制语音的语义特征以得到用户语音文本识别结果词粒度语义特征向量的序列,分析所述用户动作视频的动作语义特征以得到用户动作语义编码特征向量的序列,对所述用户语音文本识别结果词粒度语义特征向量的序列和所述用户动作语义编码特征向量的序列进行跨模态融合以得到动作‑语音交互融合特征向量的序列,基于所述动作‑语音交互融合特征向量的序列来生成动画角色虚拟视频。这样,可以实现快速的虚拟制片过程,并提供实时预览能力,从而为影视创作者提供更多的创意空间和表达方式。
申请人信息
- 申请人:北京天工异彩影视科技有限公司
- 申请人地址:100000 北京市大兴区北京经济技术开发区永昌北路9号1幢112号(北京自贸试验区高端产业片区亦庄组团)
- 发明人: 北京天工异彩影视科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种高帧率回放式快速虚拟制片系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202410022337.6 |
| 申请日 | 2024/1/8 |
| 公告号 | CN117528197B |
| 公开日 | 2024/4/2 |
| IPC主分类号 | H04N21/85 |
| 权利人 | 北京天工异彩影视科技有限公司 |
| 发明人 | 王晓燕; 王璇; 刘松; 武世杰; 朱飞 |
| 地址 | 北京市大兴区北京经济技术开发区永昌北路9号1幢112号(北京自贸试验区高端产业片区亦庄组团) |
专利主权项内容
1.一种高帧率回放式快速虚拟制片系统,其特征在于,包括:数据获取模块,用于获取由摄像头捕捉的用户动作视频和由录音设备捕捉的用户录制语音;语义特征提取模块,用于提取所述用户录制语音的语义特征以得到用户语音文本识别结果词粒度语义特征向量的序列;动作语义特征分析模块,用于分析所述用户动作视频的动作语义特征以得到用户动作语义编码特征向量的序列;跨模态融合模块,用于对所述用户语音文本识别结果词粒度语义特征向量的序列和所述用户动作语义编码特征向量的序列进行跨模态融合以得到动作-语音交互融合特征向量的序列;其中,所述跨模态融合模块包括跨模态融合单元,用于使用跨模态双向交互融合模块对所述用户动作语义编码特征向量的序列和所述用户语音文本识别结果词粒度语义特征向量的序列进行处理以得到所述动作-语音交互融合特征向量的序列;生成模块,用于基于所述动作-语音交互融合特征向量的序列来生成动画角色虚拟视频;所述语义特征提取模块,包括:语音识别单元,用于对所述用户录制语音进行语音识别以得到用户语音文本识别结果;以及语义编码单元,用于将所述用户语音文本识别结果通过语义编码器以得到所述用户语音文本识别结果词粒度语义特征向量的序列;所述语义编码单元,包括:划分子单元,用于将所述用户语音文本识别结果进行基于词粒度的划分以得到用户语音文本词的序列;词嵌入编码子单元,用于将所述用户语音文本词的序列通过词嵌入层以得到用户语音文本词嵌入向量的序列;以及上下文语义关联编码子单元,用于将所述用户语音文本词嵌入向量的序列通过基于转换器的用户语音文本上下文语义关联编码器以得到所述用户语音文本识别结果词粒度语义特征向量的序列;所述动作语义特征分析模块,包括:离散采样单元,用于对所述用户动作视频进行离散采样以得到用户动作关键帧的序列;以及用户动作语义理解单元,用于将所述用户动作关键帧的序列通过基于卷积神经网络模型的用户动作语义理解器以得到所述用户动作语义编码特征向量的序列;所述基于卷积神经网络模型的用户动作语义理解器包括输入层、卷积层、激活层、池化层和输出层;所述跨模态融合单元,包括:相关度计算子单元,用于计算所述用户动作语义编码特征向量的序列中各个用户动作语义编码特征向量与所述用户语音文本识别结果词粒度语义特征向量的序列中各个用户语音文本识别结果词粒度语义特征向量之间的相关度;用户动作交互式更新子单元,用于基于所述用户动作语义编码特征向量的序列中各个用户动作语义编码特征向量与所述用户语音文本识别结果词粒度语义特征向量的序列中所有用户语音文本识别结果词粒度语义特征向量之间的相关度,以及所述用户语音文本识别结果词粒度语义特征向量的序列中所有用户语音文本识别结果词粒度语义特征向量,对所述用户动作语义编码特征向量的序列中各个用户动作语义编码特征向量进行交互式更新,以得到更新用户动作语义编码特征向量的序列;用户语音文本交互式更新子单元,用于基于所述用户语音文本识别结果词粒度语义特征向量的序列中各个用户语音文本识别结果词粒度语义特征向量与所述用户动作语义编码特征向量的序列中所有用户动作语义编码特征向量之间的相关度,以及所述用户动作语义编码特征向量的序列中所有用户动作语义编码特征向量,对所述用户语音文本识别结果词粒度语义特征向量的序列中各个用户语音文本识别结果词粒度语义特征向量进行交互式更新,以得到更新用户语音文本识别结果词粒度语义特征向量的序列;用户动作融合子单元,用于融合所述用户动作语义编码特征向量的序列和所述更新用户动作语义编码特征向量的序列,以得到交互融合用户动作语义编码特征向量的序列;用户语音文本融合子单元,用于融合所述用户语音文本识别结果词粒度语义特征向量的序列和所述更新用户语音文本识别结果词粒度语义特征向量的序列,以得到交互融合用户语音文本识别结果词粒度语义特征向量的序列;以及点乘子单元,用于将所述交互融合用户动作语义编码特征向量的序列和所述交互融合用户语音文本识别结果词粒度语义特征向量的序列进行按位置点乘,以得到所述动作-语音交互融合特征向量的序列。