← 返回列表

融合混合注意力机制的肠息肉分割方法、系统及介质

申请号: CN202311294605.1
申请人: 安徽大学
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 融合混合注意力机制的肠息肉分割方法、系统及介质
专利类型 发明授权
申请号 CN202311294605.1
申请日 2023/10/9
公告号 CN117036714B
公开日 2024/2/9
IPC主分类号 G06V10/26
权利人 安徽大学
发明人 徐晨初; 李萌; 王源; 齐荣晖; 宋俞荭; 韩龙飞; 张鼎文; 韩军伟
地址 安徽省合肥市蜀山区经济开发区九龙路111号

摘要文本

本发明的一种融合混合注意力机制的肠息肉分割方法、系统及介质,包括以下内容:对基于内窥镜下的肠息肉图像进行预处理,包括数据增强、自适应阈值对分割目标的区域提取,用于增强分割模型的鲁棒性和挖掘更准确的目标的边界信息;构建特征令牌金字塔模块提高对肠息肉图像的语义信息提取能力,同时采用更少的模块来构建该特征令牌金字塔可以获取具有多尺度感知的语义信息;构建全局特征提取模块利用局部‑全局训练策略降低分割模型对数据样本量的需求并进一步提高分割性能;构建特征融合模块缓解在融合不同尺度特征令牌之间的语义差异;构建多尺度融合模块从元素角度对所有尺度特征令牌进行融合,减少空间信息的损失并增强网络的鲁棒性。

专利主权项内容

1.一种融合混合注意力机制的肠息肉分割方法,其特征在于,包括以下步骤,S1、收集多种类型基于内窥镜下的肠息肉图像作为初始数据构成数据集,随后进行数据增强和自适应阈值的肠息肉目标区域提取,按照1 : 3的数据量组成测试集和训练集;S2、基于标准的transformer模块构建多种注意力机制融合的神经网络模块,其中,注意力机制包括:门控轴向注意力机制模块、滑动窗口注意力机制模块和旁路注意力机制模块;滑动窗口注意力机制模块由两个连续的Swin-Transformer模块构成,其中第一个Swin-Transformer模块由window的多头注意力机制层和多层增强感知机层组成,所述的window的多头注意力机制层和多层增强感知机层均使用残差连接,多层增强感知机层使用了深度卷积网络;第二个Swin-Transformer模块由SW-Transformer模块和多层增强感知机层组成,它们也均使用了残差连接;旁路注意力机制模块,将旁路卷积引入Transformer模块中,所述旁路注意力机制模块包括旁路卷积模块、MSA模块和前馈网络模块,通过残差连接共同组成;S3、构建一个融合的神经网络,所述融合的神经网络包括特征令牌金字塔模块、全局特征提取模块、语义融合模块和多尺度融合模块;所述的融合的神经网络输入为基于内窥镜的肠息肉图像,输出为相对应的肠息肉图像中目标区域的分割结果图;肠息肉图像的输入分为两路,第一路输入到特征令牌金字塔模块,第二路输入到全局特征提取模块,随后将第一路得到的特征通过语义融合模块进行特征融合,再通过多尺度融合模块获取从元素角度对所有尺度特征令牌进行融合的特征,第二路得到的全局特征与多尺度融合模输出的特征一起输入到上采样的解码器模块完成解码,得到最终的分割结果;S4、利用训练样本训练所述的肠息肉分割神经网络,并优化网络参数,确定网络参数以得到最佳肠息肉分割模型;S5、利用采集到的测试样本输入至最佳肠息肉分割模型中,计算输出肠息肉分割图像,得到最终的分割结果并进行评估;所述步骤S2具体包括,S21、构建门控轴向注意力机制模块;S22、构建滑动窗口注意力机制模块;基于滑动窗口注意力多头机制模块、基于移动窗口的多头注意力机制模块组成和前馈网络模块构成,即:
= W_MSA(Norm(/>)) + />,
= FFN(Norm(Z`i)) + />,
= SW_MSA(Norm(/>)) + />,
= FFN(Norm(Z`i)) + />,其中,Norm表示为归一化层,FFN为前馈网络,i表示为某一中间模块标识符,W_MSA表示为输入特征通过的基于窗口的注意力机制模块,SW_MSA则表示为基于滑动窗口注意力机制模块,表示为第/>层中基于窗口的多头注意力模块输出的特征表示,/>表示为基于移动窗口的多头自注意力模块输出的特征图像;S23、构建旁路注意力机制模块,将旁路卷积引入视觉变压器模块中,该模块包括旁路卷积模块、多头注意力机制模块和前馈网络模块,通过残差连接共同组建;对于第ith层模块表示为:
= MSA(Norm(/>))+ByConv(Norm(/>)),
= FFN(Norm(/>)) +ByConv(Norm(/>)),其中,ByConv表示旁路卷积模块,包含2个卷积核为1×1的卷积层:,其中,/>表示为(l+1)th/>层的第/>个特征图,相应的/>表示为第l层的第/>个特征图,W表示权重矩阵,*表示2D卷积操作,而b为相对应的偏置,每个所述的1×1的卷积层后添加GELU激活函数;此外在所述2个卷积层后引入1个卷积核大小为3×3的深度卷积;所述步骤S3具体包括,S31、构建特征令牌金字塔模块;每个输入内窥镜肠息肉图像X,其中,H、W分别表示输入图像的高度和宽度尺寸,C表示相对的通道数,R表示像素所在的空间区域;堆叠的特征令牌生成模块共同构成特征令牌金字塔模块,其中,所述的特征令牌生成器由2个卷积核为1×1的卷积层和1个卷积核大小为3×3的深度卷积组成,此外,在第1、2个卷积操作后引入非线性激活函数PRelu6;即:
= PRelu6(Conv1(X)),
= PRelu6(DWconv(/>)),
= Liner(Conv1(/>)),通过构建的模块产生出一系列局部特征令牌{,…,/>},其中,N表示尺度数,随后令牌{/>,…,/>}被平均池化到目标大小,随后将来自不同尺度的特征令牌沿着通道维度连接起来,以产生新的特征标记输入到旁路注意力机制模块,生成特征图/>;即:
=ByViT(/>),其中,ByViT表示使用堆叠的旁路卷积注意力机制模块作为编码器,学习、提取输入的特征令牌,获得局部尺度感知语义;S32、构建语义融合模块;将每个通道获得的尺度语义与特征令牌金字塔模块生成的多通道局部令牌/>作为语义融合模块的输入,来弥补令牌{/>,…,/>}之间存在显著的语义差距差异;S33、构建全局特征提取模块,将所述门控轴向注意力机制模块和滑动窗口注意力机制模块共同作为全局特征提取分支的编码器模块;S34、构建多尺度融合模块,将不同尺度下的聚合的特征令牌进行融合。 来自马-克-数-据-官网