变焦倍数识别及目标重识别数据集制作方法
摘要文本
变焦倍数识别及目标重识别数据集制作方法,属于多模态遥感数据目标检测与识别技术领域。为了解决目前没有一种有效的基于机载同轴多模态光学传感器的数据处理方法能够快速且自动化地制作多模态目标重识别数据集的问题。本发明采用变焦倍数预测网络对对机载同轴多模态遥感数据进行处理,然后将不同尺寸切片框对应的变焦可见光图像和红外图像的特征向量分别与从单倍焦距的广角可见光图像中提取到的特征向量进行特征距离计算,距离最近的特征向量对应的框选尺寸与a的比值即为预测的变焦倍数;然后对多模态图像进行截取以实现焦距对齐和数据融合,在进行目标检测和目标分割,针对同一目标类的多模态目标图像进行标注,进而实现数据集的制作。
申请人信息
- 申请人:哈尔滨航天恒星数据系统科技有限公司
- 申请人地址:150028 黑龙江省哈尔滨市哈尔滨高新技术产业开发区科技创新城创新路1616号5号楼
- 发明人: 哈尔滨航天恒星数据系统科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 变焦倍数识别及目标重识别数据集制作方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311279678.3 |
| 申请日 | 2023/9/28 |
| 公告号 | CN117528233A |
| 公开日 | 2024/2/6 |
| IPC主分类号 | H04N23/67 |
| 权利人 | 哈尔滨航天恒星数据系统科技有限公司 |
| 发明人 | 侯伟; 吴敌; 吴浩萌; 王文轩; 李慧子; 赵辉; 张斯元; 李宗鑫 |
| 地址 | 黑龙江省哈尔滨市哈尔滨高新技术产业开发区科技创新城创新路1616号5号楼 |
专利主权项内容
1.一种变焦倍数识别方法,其特征在于,包括以下步骤:首先,获取机载同轴多模态遥感数据,所述多模态遥感数据对应的图像数据包括广角可见光图像I、变焦可见光图像I和红外图像数据I;将广角可见光图像I作为是单倍焦距图像;widezoominfraredwide然后采用变焦倍数预测网络ZPNet进行处理,变焦倍数预测网络ZPNet包括三分支编码器,即采用ZPNet的三分支编码器对输入数据进行特征提取,特征提取的过程包括以下步骤:将广角可见光图像I、变焦可见光图像I分别输入各自对应的广角编码器和变焦编码器中,得到a×a×2048的特征F、F,其中广角编码器和变焦编码器结构相同,编码器为基于ResNet50残差网络前四个阶段的改进网络,ResNet50残差网络前四个阶段即STAGE 0-STAGE 4,在STAGE 0-STAGE 4的每个STAGE之后插入MFA模块,即在ResNet50残差网络的前四个阶段间隔加入MFA模块;widezoom1wide1zoomMFA模块即多阶段特征聚合模块,MFA模块的处理过程如下:MFA模块以与其前部相邻的ResNet50第n阶段块STAGE n的输入和输出共同作为其输入;第n个阶段块的输入为MFA模块提供低层次的特征映射第n个阶段块的输出为MFA模块提供高层次的特征映射/>其中C、W和H分别表示通道的个数、特征的宽度和高度;首先,对特征f和特征f进行空间特征聚合:lh利用三个1×1卷积层将特征转化为三个紧凑嵌入/>然后,通过矩阵乘法运算及softmax来计算/>和/>在第一个数据维度的空间相似矩阵M;再通过/>和M的矩阵相乘恢复信道维数为R,然后应用一个BN层ω对特征进行归一化;最后通过矩阵加法将f与之相加得到输出/>CCm×nCh然后,对特征和特征f进行通道特征聚合:l利用三个1×1卷积层将特征转化为三个紧凑嵌入/>再通过矩阵乘法运算及softmax来计算/>和/>在第二个数据维度的通道相似矩阵:再通过和M的矩阵相乘来恢复信道维数为R,然后应用一个BN层ω对特征进行归一化;最后通过矩阵加法将/>与之相加得到MFA的输出/>Sm×nS基于广角编码器的结构,红外编码器在最后一个MFA模块之前额外添加一个DEE模块;红外图像数据I输入其编码器分支后同样得到a×a×2048的特征F;所述DEE模块含有若干个并行的、结构相同的分支,DEE模块其中第i个分支的网络结构如下:infrared1infrared首先使用三个3×3的压缩卷积层将输入的特征f∈R的尺寸减少到自身大小的1/4,即f', f', f'∈R,各自使用ReLU激活层F进行处理,然后再使用三个1×1的扩展卷积层/>将特征f', f', f'分别经过激活函数后的特征图的尺寸增加到其自身大小的四倍,即f", f", f"∈R,再进行融合生成第i个分支的嵌入f"<m×n123m/4×nReLU123123m×n<最后将所有分支的输出f"与DEE模块的输入特征f做平均池化mean-pooling,得到DEE模块的输出;<采用ZPNet的三分支编码器对输入数据进行特征提取后分别得到a×a×2048的特征;针对广角可见光图像的a×a×2048的特征,随机选择不同尺寸的切片框进行框选切片,将随机框选切片后的特征分别通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量;将变焦可见光图像对应的a×a×2048的特征通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量,同时将红外图像数据对应的a×a×2048的特征通过卷积块、BN块和平均池化块,得到1×1×2048的特征向量;最后将不同尺寸切片框对应的变焦可见光图像的特征向量和红外图像的特征向量分别与从单倍焦距的广角可见光图像中提取到的特征向量进行特征距离计算,距离最近的特征向量对应的框选尺寸与a的比值即为预测的变焦倍数。