← 返回列表

动态视觉驱动的大模型无感交互分割方法

申请号: CN202410111204.6
申请人: 东南大学
更新日期: 2026-03-17

专利详细信息

项目 内容
专利名称 动态视觉驱动的大模型无感交互分割方法
专利类型 发明申请
申请号 CN202410111204.6
申请日 2024/1/26
公告号 CN117635621A
公开日 2024/3/1
IPC主分类号 G06T7/00
权利人 东南大学
发明人 葛荣骏; 王冲; 何宇霆; 孙未雅; 张道强; 陈阳; 刘澄玉
地址 江苏省南京市玄武区四牌楼2号

摘要文本

本发明公开了一种动态视觉驱动的大模型无感交互分割方法,具体如下:引入动态视觉驱动分割技术,在医用领域利用医生动态视觉引导实时无感交互分割;初始化医学图像分割大模型并加载相关参数;使用眼动仪实时收集用户在图像上的视觉运动数据并将该图像输入图像编码器编码为高维特征;采用视觉运动数据过滤器,过滤噪声并将视觉运动数据分类为扫视行为数据和凝视行为数据;根据用户的视觉运动行为模式,智能选择将扫视行为数据或凝视行为数据作为提示信息用于分割;分割结果与原始图像叠加并可视化给用户提供反馈。本发明在临床上为医生提供更灵活、智能的交互方式,使整个交互分割过程更符合医生个性化的需求,提高了医生的工作效率。 详见官网:

专利主权项内容

1.动态视觉驱动的大模型无感交互分割方法,其特征在于,实现视觉交互分割包括以下步骤:S1:引入动态视觉驱动分割技术,在医用领域利用医生动态视觉引导实时无感交互分割;S2:初始化医学图像分割大模型并加载相关参数;S3:使用眼动仪实时收集用户在图像上的视觉运动数据并将该图像输入图像编码器编码为图像高维特征;S4:将步骤S3中收集到的原始视觉运动数据通过视觉运动数据过滤器,能够过滤噪声并将视觉运动数据分类为扫视行为数据和凝视行为数据;S5:根据步骤S3中的用户的视觉运动行为模式,智能选择将扫视行为数据或凝视行为数据作为提示信息用于分割;S6:将步骤S4、S5中筛选好的视觉运动信息作为提示信息输入医学图像分割大模型,模型中使用提示信息编码器对其进行编码为视觉感知高维特征;S7:将步骤S3中原始图像高维特征与步骤S6中编码后的视觉感知高维特征进行融合操作,并输入最终的解码器进行分割;S8:将步骤S7中解码得到的分割结果与原始图像叠加并可视化给用户提供反馈,用户根据当前分割结果调整视线进行下次交互从而优化分割结果。