一种跨模态时域视频定位方法及系统
摘要文本
本发明提供一种跨模态时域视频定位方法及系统,该方法包括:获取公开数据集中视频和查询文本;对视频依次进行稀疏采样和邻接采样,对应得到采样视频和邻接视频;通过卷积神经网络提取采样视频和邻接视频中的视觉特征,并通过GloVe模型提取查询文本特征;通过基于注意力机制的跨模态交互网络提取所述视觉特征和所述查询文本特征中的跨模态特征;将邻接视频跨模态特征向对应的采样视频跨模态特征按权重进行聚合;基于聚合后的跨模态特征,通过带软标签的预测器,预测视频定位起止帧位置。通过该方案可以消除由于视频稀疏采样中过滤掉真实起止帧而引入的采样偏差,有效提高时域视频定位精度。
申请人信息
- 申请人:华中科技大学
- 申请人地址:430000 湖北省武汉市洪山区珞喻路1037号
- 发明人: 华中科技大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种跨模态时域视频定位方法及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311416027.4 |
| 申请日 | 2023/10/30 |
| 公告号 | CN117152669B |
| 公开日 | 2024/2/6 |
| IPC主分类号 | G06V20/40 |
| 权利人 | 华中科技大学 |
| 发明人 | 周潘; 朱佳昊; 熊泽雨; 徐子川; 施嘉雯 |
| 地址 | 湖北省武汉市洪山区珞喻路1037号 |
专利主权项内容
1.一种跨模态时域视频定位方法,其特征在于,包括:获取公开数据集中视频和查询文本;对视频依次进行稀疏采样和邻接采样,对应得到采样视频和邻接视频;其中,所述邻接采样是指对稀疏采样视频帧进行相邻帧采样,包括视频帧的前一帧和后一帧;通过卷积神经网络提取采样视频和邻接视频中的视觉特征,并通过GloVe模型提取查询文本特征;通过基于注意力机制的跨模态交互网络提取所述视觉特征和所述查询文本特征中的跨模态特征;将邻接视频跨模态特征向对应的采样视频跨模态特征按权重进行聚合;其中,根据邻接视频跨模态特征与对应的采样视频跨模态特征的余弦相似度矩阵,对余弦相似度矩阵与邻接视频跨模态特征进行矩阵乘法,得到聚合后的特征矩阵;在一定比例的原特征基础上,根据公式计算最终的聚合特征矩阵;
;式中,表示最终聚合特征矩阵,C表示余弦相似度矩阵,C( : , k)表示取矩阵C的每一行,表示超参数,K表示邻接视频帧数量,k表示第k个邻接帧,/>表示邻接视频跨模态特征,/>表示采样视频的跨模态特征,/>、/>表示权重因子;α基于聚合后的跨模态特征,通过带软标签的预测器,预测视频定位起止帧位置。