← 返回列表

一种基于扩散模型的多模态联合手势动作生成方法

申请号: CN202410105038.9
申请人: 江西师范大学
更新日期: 2026-03-20

专利详细信息

项目 内容
专利名称 一种基于扩散模型的多模态联合手势动作生成方法
专利类型 发明申请
申请号 CN202410105038.9
申请日 2024/1/25
公告号 CN117636481A
公开日 2024/3/1
IPC主分类号 G06V40/20
权利人 江西师范大学
发明人 刘长红; 叶吉
地址 江西省南昌市高新技术开发区紫阳大道99号

摘要文本

本发明公开了一种基于扩散模型的多模态联合手势动作生成方法,构建包括编码器、多模态自评估联合网络和轻量化扩散模型,所述编码器包括词向量模型、音频编码器、表情编码器、人脸编码器和身份编码器,所述多模态自评估联合网络包括模态交叉注意力层和激活函数;所述轻量化扩散模型由U?net网络构成;构建多模态数据;采用编码器对多模态数据进行编码,得到各个单模态特征,将各个单模态特征输入多模态自评估联合网络进行特征融合,将融合的特征输入轻量化扩散模型进行手势动作生成。本发明通过多模态自评估联合网络自动学习手势动作与各个模态之间的相关性,挖掘各个模态与手势动作之间的关系重要性,使生成的手势动作更丰富、灵活。。

专利主权项内容

1.一种基于扩散模型的多模态联合手势动作生成方法,其特征在于:包括以下步骤:步骤S1:构建深度学习模型;所述深度学习模型包括编码器、多模态自评估联合网络和轻量化扩散模型;所述编码器包括词向量模型、音频编码器、表情编码器、人脸编码器和身份编码器;所述多模态自评估联合网络包括模态交叉注意力层和激活函数;所述轻量化扩散模型由U-net网络构成;步骤S2:构建多模态数据,所述多模态数据包括演讲者的手势动作、文本描述数据、音频信息、人脸信息、身份信息和人脸表情信息;步骤S3:采用编码器对多模态数据进行编码,得到各个单模态特征;步骤S4:将各个单模态特征输入多模态自评估联合网络进行特征融合;步骤S5:将融合的特征输入轻量化扩散模型进行手势动作生成。