一种用于视频的三维人体重建模型的训练方法及装置
申请人信息
- 申请人:之江实验室
- 申请人地址:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室
- 发明人: 之江实验室
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种用于视频的三维人体重建模型的训练方法及装置 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410175200.4 |
| 申请日 | 2024/2/7 |
| 公告号 | CN117726760A |
| 公开日 | 2024/3/19 |
| IPC主分类号 | G06T17/00 |
| 权利人 | 之江实验室 |
| 发明人 | 王宏升; 林峰 |
| 地址 | 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼 |
摘要文本
。本说明书公开了一种用于视频的三维人体重建模型的训练方法及装置,重建模型至少包含特征提取层、运动增强层和回归层,针对每个图像序列,根据该图像序列的初始特征对应的第一张量的帧数轴、高度轴和宽度轴,确定所述初始特征的序列特征元,根据各序列特征元的运动增强特征,得到样本视频中预测三维人体的重建视频,根据各图像序列的速度损失和样本视频的三维重建损失训练该重建模型。在得到各图像序列的初始特征后,以序列特征元为单位,对同一通道的同一图像序列包含的各帧图像的特征进行特征增强,增强了同一图像序列中各帧图像之间联系,并根据速度损失来监督重建模型对帧间连续性的增强。
专利主权项内容
1.一种用于视频的三维人体重建模型的训练方法,其特征在于,所述重建模型至少包含特征提取层、运动增强层和回归层,所述方法包括:获取样本视频,确定所述样本视频对应的多个图像序列;针对每个图像序列,将该图像序列输入所述特征提取层,得到该图像序列的初始特征,确定所述初始特征对应的第一张量,根据所述第一张量的帧数轴、高度轴和宽度轴,确定所述初始特征的序列特征元,根据所述第一张量的序列轴和通道轴,确定所述初始特征的序列特征元的数量;针对每个序列特征元,将该序列特征元,输入所述运动增强层,确定该序列特征元的运动增强特征,根据各序列特征元的运动增强特征,确定所述样本视频的运动增强特征;将所述样本视频的运动增强特征输入所述回归层,得到所述样本视频中预测三维人体的重建视频;确定所述重建视频中各帧图像中预测三维人体的预测三维关节点,针对每个图像序列,根据该图像序列的各帧图像中预测三维关节点的位置变化,确定该图像序列的预测三维关节点的平均速度,作为该图像序列的预测速度;根据所述该图像序列的预测速度与该图像序列的标注速度的差异,确定该图像序列的速度损失,根据各图像序列的速度损失和所述样本视频的三维重建损失,训练所述重建模型。