基于自监督光流学习的交互式视频人物跟踪方法及系统
申请人信息
- 申请人:山东建筑大学; 山东国子软件股份有限公司
- 申请人地址:250000 山东省济南市历城区凤鸣路1000号
- 发明人: 山东建筑大学; 山东国子软件股份有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 基于自监督光流学习的交互式视频人物跟踪方法及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311694258.1 |
| 申请日 | 2023/12/12 |
| 公告号 | CN117392180B |
| 公开日 | 2024/3/26 |
| IPC主分类号 | G06T7/246 |
| 权利人 | 山东建筑大学; 山东国子软件股份有限公司 |
| 发明人 | 王少华; 秦者云; 刘兴波; 庞瑞英; 聂秀山; 尹义龙 |
| 地址 | 山东省济南市历城区临港开发区凤鸣路1000号; 山东省济南市高新技术产业开发区齐鲁文化创意基地5号楼4单元 |
摘要文本
本发明公开了一种基于自监督光流学习的交互式视频人物跟踪方法及系统,涉及视频人物跟踪技术领域,该方法包括:获取包含连续帧图像序列的视频数据,通过用户点击操作,确定连续帧图像序列第一帧图像中的目标人物初始位置,进而生成目标人物初始掩码;将目标人物初始掩码和视频数据输入至已经过预训练的自监督光流学习模型中,预测视频数据中相邻帧图像之间的光流向量,根据预测的光流向量和目标人物初始掩码,预测下一帧图像中的目标人物掩码及位置;将预测的下一帧图像中的目标人物掩码再输入至自监督光流学习模型中,进行不断迭代跟踪预测,直至视频结束,实时输出目标人物在整个视频中的移动位置和轨迹,实现更精确的目标人物跟踪。
专利主权项内容
1.一种基于自监督光流学习的交互式视频人物跟踪方法,其特征是,包括:获取包含连续帧图像序列的视频数据,通过用户点击操作,确定连续帧图像序列的第一帧图像中的目标人物初始位置;基于目标人物初始位置,生成目标人物初始掩码,将目标人物初始掩码和视频数据输入至已经过预训练的自监督光流学习模型中,预测视频数据中相邻帧图像之间的光流向量,根据预测的光流向量和目标人物初始掩码,预测下一帧图像中的目标人物掩码,输出下一帧图像中的目标人物位置;将预测的下一帧图像中的目标人物掩码再输入至自监督光流学习模型中,进行不断迭代跟踪预测,直至视频结束,实时输出目标人物在整个视频中的移动位置和轨迹;所述自监督光流学习模型采用编码器-解码器结构;所述编码器包括多个注意力层,每个注意力层包括一个多头自注意力层和一个多头交叉注意力层,用于提取图像特征,生成特征图;所述解码器也包括多个注意力层,每个注意力层包括一个多头自注意力层和一个多头交叉注意力层,用于对特征图进行解码和特征重建;所述自监督光流学习模型的训练过程包括:以包含连续帧图像序列且每一帧图像均标注目标人物框的视频数据,构建训练数据集;基于训练数据集,预训练自监督光流学习模型;将连续帧图像序列中的每一帧图像输入至自监督光流学习模型中,将连续帧图像序列中的第一帧图像转换为二值掩码图像,根据目标人物初始位置,生成目标人物初始掩码;基于已经过预训练的自监督光流学习模型,提取每一帧图像的特征图,将相邻帧图像的特征图进行特征对齐,生成光流图,提取每一对相邻帧图像之间的光流向量;其中,所述提取每一帧图像的特征图,包括:将每一帧图像划分为个多个固定大小的非重叠图像块,利用编码器对每一帧图像的非重叠图像块进行特征提取,提取每一图像块经过空间全局化和时间关联性建模的特征图;将每一图像块的特征图按照图像块划分的逆过程重新拼接,得到每一帧图像完整的帧级特征图;基于提取的每一对相邻帧图像之间的光流向量,构建前向后向一致性损失函数和光流损失函数,通过自监督训练,直至损失函数最小,完成模型的训练。