← 返回列表
3D数字人的语音驱动方法、装置、存储介质及相关设备
申请人信息
- 申请人:广州趣丸网络科技有限公司
- 申请人地址:510630 广东省广州市天河区平云路163号之二1601室(部位 : 自编之01室)
- 发明人: 广州趣丸网络科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 3D数字人的语音驱动方法、装置、存储介质及相关设备 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410021915.4 |
| 申请日 | 2024/1/8 |
| 公告号 | CN117524244A |
| 公开日 | 2024/2/6 |
| IPC主分类号 | G10L21/10 |
| 权利人 | 广州趣丸网络科技有限公司 |
| 发明人 | 张顺四; 马兴沛 |
| 地址 | 广东省广州市天河区平云路163号之二1601室(部位 : 自编之01室) |
摘要文本
本申请提供的3D数字人的语音驱动方法、装置、存储介质及相关设备,当获取到目标用户输入的语音信号时,可以获取目标表情预测模型,然后将语音信号输入至目标表情预测模型中,这样便可以得到目标表情预测模型输出的、与语音信号同步的、3D数字人的人脸不同区域的表情参数;利用该表情参数以及语音信号驱动3D数字人说话时,既可以通过人脸不同区域的表情参数来生成嘴形丰富度较高的3D数字人,又可以控制3D数字人说话时语音与嘴形的同步性,为用户提供接近于实时与真人自然交流的体验,从而在极大程度上提升用户的互动感与沉浸感,满足元宇宙3D场景数字人音频驱动唇形的需求。
专利主权项内容
1.一种3D数字人的语音驱动方法,其特征在于,所述方法包括:获取目标用户输入的语音信号,以及目标表情预测模型,其中,所述目标表情预测模型包括目标语音编码模块、目标3D解码网络和目标多层感知器;将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后,得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数;利用所述语音信号以及所述3D数字人的人脸不同区域的表情参数,驱动所述3D数字人说话。