← 返回列表

注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法

申请号: CN202311753368.0
申请人: 中国人民解放军海军航空大学
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法
专利类型 发明申请
申请号 CN202311753368.0
申请日 2023/12/20
公告号 CN117689692A
公开日 2024/3/12
IPC主分类号 G06T7/246
权利人 中国人民解放军海军航空大学
发明人 徐从安; 孙炜玮; 高龙; 刘红娇; 宿南; 闫奕名; 林云; 吴俊峰
地址 山东省烟台市二马路188号

摘要文本

本发明公开了一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法。本方法基于融合跟踪模型,它包括高光谱模态分支、RGB模态分支、融合模块、高光谱预测模块和RGB预测模块等。其中,融合模块基于Transformer,将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征。本发明通过更新高光谱搜索区域和RGB搜索区域,得到同一目标在空间不匹配的多模态数据中的模态特定表征,缓解了两种模态空间差异导致的多模态信息跟踪困难的问题;同时,利用Transformer中的注意力机制自适应地捕捉两种模态信息之间的关系,实现两种模态信息的自适应聚合,提高了跟踪性能。

专利主权项内容

1.一种注意力机制引导匹配关联的高光谱和RGB视频融合跟踪方法,其特征在于步骤包括:步骤1、建立融合跟踪模型,所述融合跟踪模型包括高光谱模态分支、RGB模态分支、融合模块、划分模块、高光谱预测模块和RGB预测模块;所述高光谱模态分支用于根据高光谱图像获取高光谱模态特定表征,RGB模态分支用于根据RGB图像获取RGB模态特定表征;所述融合模块基于Transformer,用于将高光谱模态特定表征和RGB模态特定表征进行融合得到多模态融合表征,所述划分模块用于将多模态融合表征为高光谱子表征和RGB子表征;所述高光谱预测模块用于根据高光谱子表征得到高光谱目标结果即当前输入的高光谱图像中的目标位置,所述RGB预测模块用于根据RGB子表征得到RGB目标结果即当前输入的RGB图像中的目标位置;步骤2、获取高光谱模态视频数据a以及高光谱模态视频数据a中第1帧高光谱图像中的目标位置Pa,并基于目标位置Pa得到第1帧高光谱图像中的高光谱模板补丁a′以及第2帧高光谱图像中的高光谱搜索区域a;将高光谱模板补丁a′作为高光谱模态分支的第一输入,将高光谱搜索区域a作为高光谱模态分支的第二输入;111212同时,获取RGB模态视频数据b以及RGB模态视频数据b中第1帧RGB图像中的目标位置Pb,并基于目标位置Pb得到第1帧RGB图像中RGB模板补丁b′以及第2帧RGB图像中的RGB搜索区域b;将RGB模板补丁b′作为RGB模态分支的第一输入,将RGB搜索区域b作为RGB模态分支的第二输入;111212步骤3、设定计数值i=2;步骤4、将当前的高光谱模态分支的第一输入和第二输入共同输入到高光谱模态分支中,将当前的RGB模态分支的第一输入和第二输入共同输入到RGB模态分支中,得到融合跟踪模型输出的第i帧高光谱图像中的目标位置Pa和第i帧RGB图像中的目标位置Pb;ii步骤5、令i=i+1:如果i大于高光谱模态视频数据a的总帧数或i大于RGB模态视频数据b的总帧数,则执行步骤8;否则,获取下一帧即第i帧的高光谱图像和第i帧的RGB图像,然后执行步骤6;步骤6、对于第i帧高光谱图像,基于第i-1帧的高光谱图像中的目标位置Pa得到第i帧高光谱图像的搜索区域a,然后将高光谱模板补丁a′作为高光谱模态分支的第一输入,将第i帧高光谱图像的搜索区域a作为当前的高光谱模态分支的第二输入;i-1i1i对于第i帧RGB图像,基于第i-1帧的RGB图像中的目标位置得到第i帧RGB图像的搜索区域b,然后将RGB模板补丁b′作为RGB模态分支的第一输入,将第i帧RGB图像的搜索区域b作为当前的RGB模态分支的第二输入;i1i步骤7、返回执行步骤4;步骤8、基于每一帧RGB图像对应的目标位置得到跟踪结果。