基于音频生成动态图像的方法、装置、设备及存储介质

申请号: CN202410022841.6

申请人: 南京硅基智能科技有限公司

申请日期: 2024/1/8

摘要文本

本申请实施例提供一种基于音频生成动态图像的方法、装置、设备及存储介质，涉及自然人机交互领域；该方法包括：先获取用户输入的参考图像和参考音频；之后，基于参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征，并基于目标头部动作特征和目标表情系数特征对训练后的生成网络模型进行调整，得到目标生成网络模型；最后，基于参考音频、参考图像和目标生成网络模型，对待处理图像进行处理，得到目标动态图像；其中，待处理图像与参考图像中的图像对象相同；如此，基于目标人物的单张图片即可得到对应的数字人；这样不需要进行视频采集工作以及数据清洗工作，能够降低数字人的制作成本，且缩短了数字人的制作周期。。关注公众号马克数据网

申请人信息

申请人:南京硅基智能科技有限公司
申请人地址:210012 江苏省南京市雨花台区凤信路20号万博科技园C号楼4层
发明人: 南京硅基智能科技有限公司

专利详细信息

项目	内容
专利名称	基于音频生成动态图像的方法、装置、设备及存储介质
专利类型	发明申请
申请号	CN202410022841.6
申请日	2024/1/8
公告号	CN117523051A
公开日	2024/2/6
IPC主分类号	G06T13/40
权利人	南京硅基智能科技有限公司
发明人	司马华鹏; 张茂林; 毛丽艳
地址	江苏省南京市雨花台区凤信路20号万博科技园C号楼4层

专利主权项内容

1.一种基于音频生成动态图像的方法，其特征在于，包括：获取用户输入的参考图像和参考音频；基于所述参考图像和训练后的生成网络模型，确定目标头部动作特征和目标表情系数特征；基于所述目标头部动作特征和所述目标表情系数特征对所述训练后的生成网络模型进行调整，得到目标生成网络模型；基于所述参考音频、所述参考图像和所述目标生成网络模型，对待处理图像进行处理，得到目标动态图像；所述目标动态图像表征所述待处理图像中目标人物基于所述参考音频变化面部表情的动态图像；所述待处理图像与所述参考图像中的图像对象相同。

基于音频生成动态图像的方法、装置、设备及存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

热门技术领域

快速入口

专利技术资料

特别鸣谢

基于音频生成动态图像的方法、装置、设备及存储介质

摘要文本

申请人信息

专利详细信息

专利主权项内容

相关专利推荐

一种用于分布式光伏方法发电的优化配置方法及系统

一种靶向热休克蛋白90的特异性肿瘤诊断探针和显像剂

企业数字化运营多维数据分析方法及系统

用于感知网络中边缘节点健康状态的方法、设备和介质

一种音频信息内容识别方法

一种输水隧洞水下检测机器人及使用方法

热门技术领域

快速入口

专利技术资料

特别鸣谢