← 返回列表

3D数字人的语音驱动方法、装置、存储介质及相关设备

申请号: CN202410021915.4
申请人: 广州趣丸网络科技有限公司
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 3D数字人的语音驱动方法、装置、存储介质及相关设备
专利类型 发明申请
申请号 CN202410021915.4
申请日 2024/1/8
公告号 CN117524244A
公开日 2024/2/6
IPC主分类号 G10L21/10
权利人 广州趣丸网络科技有限公司
发明人 张顺四; 马兴沛
地址 广东省广州市天河区平云路163号之二1601室(部位 : 自编之01室)

摘要文本

本申请提供的3D数字人的语音驱动方法、装置、存储介质及相关设备,当获取到目标用户输入的语音信号时,可以获取目标表情预测模型,然后将语音信号输入至目标表情预测模型中,这样便可以得到目标表情预测模型输出的、与语音信号同步的、3D数字人的人脸不同区域的表情参数;利用该表情参数以及语音信号驱动3D数字人说话时,既可以通过人脸不同区域的表情参数来生成嘴形丰富度较高的3D数字人,又可以控制3D数字人说话时语音与嘴形的同步性,为用户提供接近于实时与真人自然交流的体验,从而在极大程度上提升用户的互动感与沉浸感,满足元宇宙3D场景数字人音频驱动唇形的需求。

专利主权项内容

1.一种3D数字人的语音驱动方法,其特征在于,所述方法包括:获取目标用户输入的语音信号,以及目标表情预测模型,其中,所述目标表情预测模型包括目标语音编码模块、目标3D解码网络和目标多层感知器;将所述语音信号依次经过所述目标语音编码模块、所述目标3D解码网络和所述目标多层感知器进行处理后,得到与所述语音信号同步的、3D数字人的人脸不同区域的表情参数;利用所述语音信号以及所述3D数字人的人脸不同区域的表情参数,驱动所述3D数字人说话。