一种基于自适应令牌聚合的单目深度估计方法及系统
申请人信息
- 申请人:齐鲁工业大学(山东省科学院)
- 申请人地址:250000 山东省济南市长清区大学路3501号
- 发明人: 齐鲁工业大学(山东省科学院)
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于自适应令牌聚合的单目深度估计方法及系统 |
| 专利类型 | 发明授权 |
| 申请号 | CN202311765041.5 |
| 申请日 | 2023/12/21 |
| 公告号 | CN117437272B |
| 公开日 | 2024/3/8 |
| IPC主分类号 | G06T7/50 |
| 权利人 | 齐鲁工业大学(山东省科学院) |
| 发明人 | 张明亮; 周大正; 李彬; 杨姝慧; 智昱旻; 徐一明; 刘丽霞 |
| 地址 | 山东省济南市西部新城大学科技园 |
摘要文本
本发明属于图像处理技术领域,为了解决现有方法无法准确提取丰富的全局信息,以及无法准确估计局部特征,从而导致无法实现准确估计的问题,提出一种基于自适应令牌聚合的单目深度估计方法及系统,将卷积网络与Transformer各自的优点融合应用于深度估计任务中,其中Transformer用于提取全局上下文信息,卷积网络用于保留局部上下文信息,从而使算法具备了提取场景中完整信息的能力,并将Transformer特征和卷积网络特征的信息进行交互并增强对应关系,增强特征的表征能力,从而提高估计的准确性。
专利主权项内容
1.一种基于自适应令牌聚合的单目深度估计方法,其特征在于,包括:获取待估计图像;将获取的待估计图像进行图像分割,得到多个大小一致的图像块;将所得到的图像块利用深度估计网络进行估计,得到估计结果;其中,所述深度估计网络为跳跃连接的编码器-解码器结构,在编码器中,通过矩形卷积引导大小一致的图像块聚焦于场景中的物体,所述编码器包括Transformer分支和卷积分支,所述Transformer分支用于对预处理后的待估计图像提取全局上下文信息,得到全局特征;所述卷积分支用于对预处理后的待估计图像提取局部上下信息,得到局部特征;所述Transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强,得到增强的全局特征和增强的局部特征;利用所述解码器对增强的全局特征和增强的局部特征解码估计,得到估计结果;所述卷积分支包括卷积编码器和卷积特征增强模块;将卷积分支的卷积编码层的输出特征利用矩形卷积模块进行特征提取,得到矩形卷积聚类特征,将所得到的矩形卷积聚类特征作为先验知识在所述补丁合并层中,引导令牌的聚类和合并;将所得到的矩形卷积聚类特征作为先验知识在所述补丁合并层中,引导令牌的聚类和合并,具体为:给定初始分割标记和矩形卷积聚类特征中心标记,对于每个标记计算平均像素距离;根据所计算的像素距离,将相似令牌特征分到同一聚类中;利用注意力机制计算注意力分数进行令牌特征的合并;卷积编码层得到的特征通过矩形卷积模块得到矩形卷积聚类特征后,再输入到卷积特征增强模块,在卷积特征增强模块中,卷积特征增强模块的输入分别输入到并列的第一卷积层和第二卷积层,第一卷积层的输出特征分别经过第三卷积层和第四卷积层,第三卷积层的输出特征使用sigmoid函数进行激活,经过sigmoid函数激活后的特征与第四卷积层的输出特征进行矩阵相乘,将相乘后的特征再经过第五卷积层进行特征提取;第二卷积层的输出特征输入至第六卷积层,第六卷积层的输出结果与第五卷积层的输出结果concat融合后再输入第七卷积层中,第七卷积层的输出与卷积特征增强模块的输入特征进行concat融合后输入到第八卷积层中,第八卷积层输出的增强后的卷积特征;所述Transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强,得到增强的全局特征和增强的局部特征,具体操作为:所述全局特征和所述局部特征分别经过池化得到第一全局特征与第一局部特征;将所述第一全局特征和所述第一局部特征经过通道注意和跨图形信息交互得到增强的全局特征和增强的局部特征;将所述第一全局特征和所述第一局部特征经过通道注意和跨图形信息交互得到增强的全局特征和增强的局部特征,具体为:所述第一全局特征通过特征映射得到查询值与价值;所述第一局部特征通过特征映射得到键值与价值;将所述第一全局特征的查询值与所述第一局部特征的键值,计算交叉注意力,建模亲和力矩阵;将所述亲和力矩阵分别与所述第一全局特征的价值和所述第一局部特征的价值进行矩阵乘法,分别得到特征交互后的全局特征和特征交互后的局部特征;将所得到的特征交互后的全局特征和特征交互后的局部特征,分别与经过通道注意的所述全局特征和所述局部特征进行矩阵乘法,得到增强的全局特征和增强的局部特征。