← 返回列表

一种基于动态多尺度信息查询的图像语义分割方法及系统

申请号: CN202410122219.2
申请人: 中国海洋大学
更新日期: 2026-03-16

专利详细信息

项目 内容
专利名称 一种基于动态多尺度信息查询的图像语义分割方法及系统
专利类型 发明申请
申请号 CN202410122219.2
申请日 2024/1/30
公告号 CN117649666A
公开日 2024/3/5
IPC主分类号 G06V20/70
权利人 中国海洋大学
发明人 魏志强; 王庆; 黄磊
地址 山东省青岛市市南区鱼山路5号

摘要文本

本发明公开了一种基于动态多尺度信息查询的图像语义分割方法及系统,属于图像处理技术领域。本发明充分考虑了复杂交通场景下不同类别目标特征与多尺度全局特征的相关性,利用类别嵌入建立复杂交通场景的目标查询,与模型提取的多尺度全局特征交互实现不同类别的目标在各个尺度下特征的提取。之后,确定不同类别的目标在各个尺度下的特征的n维权重向量,动态分配多尺度权重后克服复杂交通场景下各类别多尺度特征差异的问题。从而有效提高复杂交通场景图像中不同尺度对象的分割精度,提升复杂交通场景的图像语义分割效果。解决现有方案不能准确获取各类目标相对重要的多尺度信息,导致图像语义分割效果差的技术问题。

专利主权项内容

1.一种基于动态多尺度信息查询的图像语义分割方法,其特征在于,包括:按照预设的规则,对输入图像进行预处理,得到数据序列X;input利用Vision Transformer模型对数据序列X进行全局关联特征的提取,得到特征序列F;input定义待预测的类别嵌入F,利用类别嵌入F建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入F形状相同的特征,并将n个与类别嵌入F形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征F;其中,类别嵌入F的个数为N,N表示待预测的类别数,每个类别嵌入F的序列长度均为特征序列F通道数的n倍;embeddingembeddingeieimultiscaleembeddingclassclassembedding确定不同类别的目标在各个尺度下的特征F的n维权重向量,对每个类别的特征F使用对应的权重向量进行加权求和,得到特征F;其中,每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度;multiscalemultiscaledynamic将特征F与特征序列F相乘,将相乘得到的特征的分辨率调整至预设值,得到类掩码F,用Softmax分类器逐像素预测类掩码F的语义类别,得到输入图像的分割结果图。dynamicfinalfinal