← 返回列表

一种基于扩散模型的音乐条件化舞蹈动画生成方法

申请号: CN202410146031.1
申请人: 江西师范大学
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种基于扩散模型的音乐条件化舞蹈动画生成方法
专利类型 发明申请
申请号 CN202410146031.1
申请日 2024/2/2
公告号 CN117710533A
公开日 2024/3/15
IPC主分类号 G06T13/00
权利人 江西师范大学
发明人 刘长红; 蔡娟
地址 江西省南昌市高新技术开发区紫阳大道99号

摘要文本

本发明公开了一种基于扩散模型的音乐条件化舞蹈动画生成方法,获取数据集并构建符合数据集中舞蹈视频的文本提示,将舞蹈视频切分成音乐片段和视频片段,从视频片段中第一帧、最后一帧分别得到表演者图像、源舞蹈动画片段,对获取的文本提示、音乐片段和表演者图像进行编码得到不同潜在特征,对源舞蹈动画片段添加一定时间步长、符合标准正态分布的噪声,将得到的不同潜在特征对添加的噪声进行预测得到去噪后的目标舞蹈动画片段潜在空间特征,通过预训练VAE模型对目标舞蹈动画片段潜在空间特征进行解码得到目标舞蹈动画片段。本发明将根据用户给定的音乐、文本提示、表演者图像等先验条件直接生成风格化的舞蹈图像,使其具有更好的实用性和泛化性。

专利主权项内容

1.一种基于扩散模型的音乐条件化舞蹈动画生成方法,其特征在于,包括如下步骤:步骤S1:构建舞蹈动画生成模型包括预训练扩散模型、预训练模型Wav2CLIP、对比语言图像预训模型CLIP、预训练VAE模型和多模态控制网络;所述预训练VAE模型由一个图像编码器和一个图像解码器组成;所述多模态控制网络由多个零卷积层、一个特殊的全连接层、编码器部分和中间层部分组成;所述编码器部分由多条件编码器模块、第二个扩散模型编码器模块、第三个扩散模型编码器模块、第四个扩散模型编码器模块组成;所述对比语言图像预训模型CLIP由CLIP文本编码器和CLIP图像编码器构成;所述多条件编码器模块由条件归一化模块构成;步骤S2:获取数据集的舞蹈视频,并构建与舞蹈视频符合的文本提示;步骤S2.1:将数据集的舞蹈视频进行一定时长切分成固定时长的音乐片段和视频片段,同时将视频片段中第一帧、最后一帧分别作为表演者图像、源舞蹈动画片段;步骤S3:采用对比语言图像预训模型CLIP、预训练模型Wav2CLIP和预训练VAE模型对文本提示、音乐片段和表演者图像进行编码得到不同潜在特征;不同潜在特征包括文本提示的潜在特征、音频的潜在特征和表演者图像的潜在空间特征;步骤S4:将源舞蹈动画片段编码到潜在空间,得到源舞蹈动画片段潜在空间特征,并对源舞蹈动画片段潜在空间特征进行时间步长的随机加噪,通过文本提示的潜在特征、音频的潜在特征和表演者图像的潜在空间特征的控制对源舞蹈动画片段潜在空间特征添加的噪声进行预测,进一步得到去除预测噪声的目标舞蹈动画片段潜在空间特征;步骤S5:对去噪后的目标舞蹈动画片段潜在空间特征用预训练VAE模型的图像解码器进行解码得到目标舞蹈动画片段。