← 返回列表

基于多模态细粒度对齐网络的视频描述方法与系统

申请号: CN202311668813.3
申请人: 江西财经大学
申请日期: 2023/12/7

摘要文本

本发明提出一种基于多模态细粒度对齐网络的视频描述方法与系统,该方法首先获取在视频中实体的时空细粒度标注和在视频中动作的时空细粒度标注,再获取时空特征、动作特征和文本特征,通过鼓励注意力机制将注意力集中在视频不同帧的不同空间细粒度区域,以促进实体的对齐,并动态地将动词与相关的主语和相应的上下文关联起来,以保留动作预测中的细粒度空间和时间细节,并且通过软对齐监督损失,可以使注意力机制学习在标注区域内分配更多的注意力权重,且高置信度的标注区域比低置信度标注区域的视觉权重更大。本发明通过显示地建立实体、动作与视频帧中的视觉线索的细粒度关联,以提高视频描述模型的准确性。。微信公众号专利查询网

专利详细信息

项目 内容
专利名称 基于多模态细粒度对齐网络的视频描述方法与系统
专利类型 发明授权
申请号 CN202311668813.3
申请日 2023/12/7
公告号 CN117372936B
公开日 2024/3/22
IPC主分类号 G06V20/40
权利人 江西财经大学
发明人 姜文晖; 刘林鑫; 程一波; 徐天聪; 方玉明; 左一帆
地址 江西省南昌市经济技术开发区双港东大街169号

专利主权项内容

1.一种基于多模态细粒度对齐网络的视频描述方法,其特征在于,所述方法包括如下步骤:步骤1、通过面向开放词汇下的目标检测模型检测出视频稀疏帧中与文本描述对应的实体,形成实体在关键帧的空间标注;步骤2、通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注;步骤3、根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注;步骤4、通过预训练的视觉编码器提取视频的时空特征和动作特征,通过预训练的文本编码器提取文本特征;步骤5、将文本特征分别与时空特征和动作特征进行跨模态注意力操作,得到对应的注意力权重矩阵,通过时空细粒度标注生成对应的注意力监督矩阵,以指导模型的注意力权重分配;步骤6、利用注意力监督矩阵作为监督信息,采用软对齐监督损失引导模型将注意力聚焦在时空特征和动作特征中的实体和动作区域,细粒度对齐视觉信息与文本信息,得到重聚焦后的时空特征和动作特征;步骤7、将重聚焦后的时空特征和动作特征提供给Transformer解码器以生成描述;在所述步骤2中,通过实体标签动态传播算法在空间标注帧的相邻帧中跟踪检测获取对应的实体在时间序列中的位置标注,得到在视频中实体的时空细粒度标注的具体方法包括如下步骤:采用目标跟踪器模型对已经检测出的实体在视频的相邻帧中进行跟踪,以在相邻视频帧中生成伪边界框标注;每个伪边界框标注的置信度为/>,其中,/>,伪边界框标注的生成过程存在如下关系式:
;其中,表示通过目标检测而检测出的文本描述中对应的实体位置,/>表示跟踪出的第f帧的对应的伪边界框标注,/>表示通过目标跟踪器模型进行跟踪检测操作;基于置信度的阈值过滤潜在的错误边界框,最终在视频中形成实体的时空细粒度标注;在所述步骤3中,根据在视频中实体的时空细粒度标注,采用动作标签生成算法生成在视频中动作的时空细粒度标注的具体方法包括如下步骤:针对视频帧中与动词相关的实体及其相应的边界框,生成覆盖这些框的最紧密的外接矩形,以外接矩形作为该动词的标注,记为外接矩形标注/>,外接矩形标注计算过程存在如下关系式:
;其中,表示并集操作,/>表示外界矩形操作,/>表示第f帧的第i个实体边界框标注,/>表示第f帧的第i+1个实体边界框标注,/>和/>为第f帧与动词相关的实体的边界框标注;通过聚合动词相关实体的置信度形成外接矩形标注的置信度得分,外接矩形标注的置信度得分计算过程存在如下关系式:
;其中,表示第f帧的第i个实体边界框标注的置信度,/>表示外接矩形标注,/>表示外接矩形标注的置信度得分,/>表示每帧中实体以及对应边界框的数量;视频中的动作和文本描述中的动词相对应,由外接矩形标注和其置信度得分组成该动作的时空细粒度标注;在所述步骤6中,软对齐监督损失存在如下关系式:
;其中,表示软对齐监督损失,/>表示取对数,/>表示第j个视觉向量,/>表示第j个视觉注意力权重,/>表示第j个动作向量,/>表示第j个动作注意力权重。