← 返回列表
语音驱动的3D数字人动作生成方法、系统、设备及介质
摘要文本
本发明公开了一种语音驱动的3D数字人动作生成方法、系统、设备及介质,方法包括:获取目标输入信号,目标输入信号为音频、或者音频和动作序列;将目标输入信号输入至动作生成模型中,生成与目标输入信号对应的3D数字人动作序列;动作生成模型包括音频编码器、动作风格编码器和动作生成器,音频编码器与动作风格编码器并行处理,分别生成与音频对应的第一特征向量序列以及与动作序列对应的第二特征向量,当无动作序列输入时第二特征向量为零特征向量,动作生成器基于第一特征向量序列和第二特征向量生成3D数字人动作序列。本发明具有实时性、减少了人力成本,可以自由控制生成的动作序列风格的特点。
申请人信息
- 申请人:暗物质(北京)智能科技有限公司
- 申请人地址:100071 北京市丰台区西四环南路101号6层6053号
- 发明人: 暗物质(北京)智能科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 语音驱动的3D数字人动作生成方法、系统、设备及介质 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410001611.1 |
| 申请日 | 2024/1/2 |
| 公告号 | CN117831126A |
| 公开日 | 2024/4/5 |
| IPC主分类号 | G06V40/20 |
| 权利人 | 暗物质(北京)智能科技有限公司 |
| 发明人 | 陈靖涵; 张鹏飞; 苏江 |
| 地址 | 北京市丰台区西四环南路101号6层6053号 |
专利主权项内容
1.一种语音驱动的3D数字人动作生成方法,其特征在于,包括:获取目标输入信号,目标输入信号为音频、或者音频和动作序列;将目标输入信号输入至动作生成模型中,生成与目标输入信号对应的3D数字人动作序列;动作生成模型包括音频编码器、动作风格编码器和动作生成器,音频编码器与动作风格编码器并行处理,分别生成与音频对应的第一特征向量序列以及与动作序列对应的第二特征向量,当无动作序列输入时第二特征向量为零特征向量,动作生成器基于第一特征向量序列和第二特征向量生成3D数字人动作序列。