一种基于多尺度池化Transformer的图像内部遮挡关系预测方法
摘要文本
本发明公开了一种基于多尺度池化Transformer的图像内部遮挡关系预测方法。所述的方法包括以下步骤:输入图像首先通过由卷积模块、图像切分模块和多尺度池化Transformer模块组成的编码器;然后这些特征通过逐层对应连接由一些多尺度池化Transformer模块组成的解码器;接着这些特征分别通过预测器里面两个独立的神经网络分支,分别负责生成边缘检测图和遮挡方向图;最后在方法的预测器结构内,边缘检测图和遮挡方向图通过非极大值抑制(NMS)计算后,生成遮挡关系图。本发明是目前首次使用含有Transformer的深度神经网络进行图像内部遮挡关系预测的方法,并首次提出了多尺度池化的Transformer结构,本发明相比已有的其他方法有更好的预测效果。
申请人信息
- 申请人:武汉纺织大学
- 申请人地址:430073 湖北省武汉市洪山区纺织路1号
- 发明人: 武汉纺织大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于多尺度池化Transformer的图像内部遮挡关系预测方法 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311731854.2 |
| 申请日 | 2023/12/15 |
| 公告号 | CN117409299B |
| 公开日 | 2024/3/5 |
| IPC主分类号 | G06V10/82 |
| 权利人 | 武汉纺织大学 |
| 发明人 | 颜小运; 王兆静; 李敏; 李映进; 王晨; 杨凯; 欧浩; 余可 |
| 地址 | 湖北省武汉市洪山区纺织路1号 |
专利主权项内容
1.一种基于多尺度池化Transformer的图像内部遮挡关系预测方法,其特征在于,包括以下步骤:步骤1,输入图像通过由卷积模块、图像切分模块和数个多尺度池化Transformer模块组成的编码器,由此获得具有局部和全局表达能力的和空间尺寸不同的多层次图像元特征;步骤2,将以上多层次图像元特征逐个对应连接到解码器中的数个多尺度池化Transformer模块,通过逐步融合特征和提高图像元数量的方式,获得图像元数量增加后的含有丰富细节和语义信息的特征;解码器包括1个第二多尺度池化Transformer模块和3个第三多尺度池化Transformer模块;解码器内部的计算和结构具体包括:步骤2-1,将最后一个第一多尺度池化Transformer模块输出的图像元特征输入第二多尺度池化Transformer模块,然后得到的输出图像元和倒数第二个第一多尺度池化Transformer模块的输出叠加一起作为图像元特征输入;步骤2-2,按照步骤2-1的方式,顺序连接剩下的第三多尺度池化Transformer模块和对应的第一多尺度池化Transformer模块;最后一个第三多尺度池化Transformer模块的输出图像元特征的维度尺寸为((H/P)×(W/P))×C6,其中C6为每个图像元的特征长度;第三多尺度池化Transformer模块具体的计算方式是:其接受两种输入图像元特征,分别来自编码器和解码器中对应的多尺度池化Transformer模块的输出;输入的两种图像元特征通过特征融合模块,后者本质上进行特征相加的计算;然后融合后的图像元特征依次通过第一多尺度池化Transformer单元、第一特征维度转换模块、第一反卷积模块、第二特征维度转换模块和第一多尺度池化Transformer单元;步骤3,预测器对步骤2产生的特征进行处理,分别通过两个独立的神经网络分支,其中一个分支由第二卷积模块组成,负责生成边缘检测图,而另一个分支则通过第三卷积模块生成逐像素的遮挡方向图,最后边缘检测图和遮挡方向图通过非极大值抑制计算后,生成遮挡关系图,其反映了图像内部区域和物体间的遮挡关系;预测器中非极大值抑制的具体计算方式是:将已经得到的边缘检测图和遮挡方向图逐像素相乘,然后通过非极大值抑制的方式进行处理,最后输出遮挡关系图作为最终的预测结果。